📄 Comparativa de las IAs en los Benchmarks
Chatbot Arena (formerly LMSYS): Free AI Chat to Compare & Test Best AI Chatbots
https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard
AlpacaEval Leaderboard
SWE-bench
📄 ¿Cómo analizar y elegir una IA?
📄 Valores a evaluar:
- Precisión (Exactitud en las respuestas que nos da, esto se puede ajustar con la “temperatura de la IA”)
- Velocidad (Tiempo de respuesta, las latencias de respuesta, en función de su utilidad. Para atención en directo buscaremos latencias bajas y para exactitud, esperamos latencias altas)
- Escalabilidad (Capacidad de procesamiento, meterle más conocimiento,... esto se suele ver en los tokens de contexto que permite)
- Flexibilidad (Aprendizaje y generalización. Ver si es capaz de entrenarse o flexibilizar las respuestas adaptándose al input)
- Robustez (Tolerancia a errores, por falta de datos, fallos ortográficos, omisiones, … Cuánto consigue dar una respuesta exacta frente a errores)
- Interpretabilidad (Explicabilidad de resultados. Sobretodo en partes donde hay que atender a un usuario, que sea capaz de trabajar a diferentes niveles de explicación o niveles formativos)
- Seguridad (Resistencia a ataques, almacenamiento de la información, servidores, uso de los datos, …)
- Costo (Precio y recursos adicionales necesarios para estar operativa. Evaluar también el coste de un aumento de demanda o escalabilidad)
- Compatibilidad (Integración y adaptación. En esta parte si usamos una IA dedicada, ver la documentación a ver si hay API abierta por ejemplo para conectar con lo que necesitemos)
- Soporte (Actualizaciones y soporte técnico. Cuidado porque hay muchas IAs que se están viendo destronadas por el avance de las grandes empresas y acaban cerrando el soporte. Ver alternativas a futuro para asegurar la estabilidad del servicio)
📄 Categorías y ejemplos de IA para evaluar:
1. Procesamiento de Lenguaje Natural (PLN):
- Ejemplos:
- Chatbots y Asistentes Virtuales: Siri, Alexa, Google Assistant, Sherlock, Monica, Copilot.
- Análisis de Sentimientos: Herramientas que analizan opiniones en redes sociales.
- Traducción automática: Google Translate, DeepL.
- Generación y Resumen de Texto: Modelos como GPT-4 y GPTo, NotebookLM.
- Variables para comparar IAs dentro del segmento:
- Precisión y Eficacia: Capacidad para comprender y generar lenguaje de forma correcta.
- Idiomas y Dialectos Soportados: Número y diversidad de idiomas manejados.
- Integrabilidad: Facilidad de integración con sistemas y plataformas existentes.
- Escalabilidad: Rendimiento ante aumentos en la cantidad de usuarios o datos.
- Personalización: Posibilidad de adaptar el modelo a necesidades específicas.
- Seguridad y Privacidad: Nivel de protección de datos y cumplimiento normativo.
- Costo Total de Propiedad (TCO): Gastos asociados a implementación y mantenimiento.