📄 Comparativa de las IAs en los Benchmarks

Chatbot Arena (formerly LMSYS): Free AI Chat to Compare & Test Best AI Chatbots

https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard

AlpacaEval Leaderboard

SWE-bench

📄 ¿Cómo analizar y elegir una IA?

📄 Valores a evaluar:

  1. Precisión (Exactitud en las respuestas que nos da, esto se puede ajustar con la “temperatura de la IA”)
  2. Velocidad (Tiempo de respuesta, las latencias de respuesta, en función de su utilidad. Para atención en directo buscaremos latencias bajas y para exactitud, esperamos latencias altas)
  3. Escalabilidad (Capacidad de procesamiento, meterle más conocimiento,... esto se suele ver en los tokens de contexto que permite)
  4. Flexibilidad (Aprendizaje y generalización. Ver si es capaz de entrenarse o flexibilizar las respuestas adaptándose al input)
  5. Robustez (Tolerancia a errores, por falta de datos, fallos ortográficos, omisiones, … Cuánto consigue dar una respuesta exacta frente a errores)
  6. Interpretabilidad (Explicabilidad de resultados. Sobretodo en partes donde hay que atender a un usuario, que sea capaz de trabajar a diferentes niveles de explicación o niveles formativos)
  7. Seguridad (Resistencia a ataques, almacenamiento de la información, servidores, uso de los datos, …)
  8. Costo (Precio y recursos adicionales necesarios para estar operativa. Evaluar también el coste de un aumento de demanda o escalabilidad)
  9. Compatibilidad (Integración y adaptación. En esta parte si usamos una IA dedicada, ver la documentación a ver si hay API abierta por ejemplo para conectar con lo que necesitemos)
  10. Soporte (Actualizaciones y soporte técnico. Cuidado porque hay muchas IAs que se están viendo destronadas por el avance de las grandes empresas y acaban cerrando el soporte. Ver alternativas a futuro para asegurar la estabilidad del servicio)

📄 Categorías y ejemplos de IA para evaluar:

1. Procesamiento de Lenguaje Natural (PLN):