La industria de la IA está siendo testigo de una fascinante competencia entre los notables modelos ChatGPT y Claude AI. La Large Model Systems Organization (LMSO), responsable de crear Chatbot Arena y el renombrado Vicuña Model, acaba de actualizar su tabla de clasificación de Chatbot Arena, reflejando cómo cada chatbot de IA está a la altura de sus competidores. Resulta que Anthropic le está dando una oportunidad a OpenAI, incluso cuando sus modelos aún son de uso gratuito.
GPT-4, la potencia detrás de ChatGPT Plus y Bing AI, reina con la puntuación más alta, estableciendo el estándar de oro para los modelos de lenguajes grandes (LLM). Pero a medida que avanzamos en la clasificación, se desarrolla una inesperada historia de los desamparados. Los modelos Claude de Anthropic (Claude 1, Claude 2 y Claude Instant) superan a GPT-3.5, el motor que impulsa la versión gratuita de ChatGPT. Esto implica que cada modelo de lenguaje grande desarrollado por Anthropic puede superar a la versión gratuita de ChatGPT.
El meticuloso sistema de clasificación de la LMSO proporcionó información sobre las métricas de rendimiento de estos modelos. Según la tabla de clasificación, GPT-4 tiene una calificación Arena Elo de 1181, liderando significativamente la tabla, mientras que los modelos Claude le siguen de cerca con calificaciones que van desde 1119 a 1155. GPT-3.5, por otro lado, está rezagado con una calificación de 1115. .
Para clasificar los modelos, el LMSO los hace “luchar” en partidos con indicaciones similares. El modelo con la mejor respuesta gana y el otro pierde. Los usuarios deciden quién gana según sus propias preferencias, pero nunca llegan a saber qué modelos compiten.
Como Descifrar Como se informó anteriormente, la diferencia en las capacidades de procesamiento de tokens entre ChatGPT Plus y Claude Pro, aunque no es un factor en la clasificación LMSO, también es una gran ventaja que los modelos Claude tienen sobre GPT.
“Claude Pro, basado en Claude 2 LLM, puede procesar hasta 100.000 tokens de información, mientras que ChatGPT Plus, impulsado por GPT-4 LLM, maneja 8.192 tokens”, recordamos. Esta diferencia en la capacidad de procesamiento de tokens subraya la ventaja que tienen los modelos Claude en la gestión de entradas contextuales extensas, lo cual es crucial para una experiencia de usuario enriquecida y matizada.
Además, al manejar indicaciones largas, Claude 2 ha demostrado superioridad sobre GPT, manejando indicaciones de mayor magnitud de manera más eficiente. Sin embargo, cuando las indicaciones son comparables, Claude 1 y Claude Instant brindan resultados similares o ligeramente mejores que GPT-3.5, lo que demuestra la naturaleza competitiva de estos modelos. Con las capacidades de contexto de Claude, una respuesta inicial deficiente se puede mejorar drásticamente con una sugerencia más refinada, amplia y rica.
Los modelos de código abierto no se quedan atrás en esta carrera.
WizardLM, un modelo entrenado en LlaMA-2 de Meta con 70 mil millones de parámetros, se destaca como el mejor LLM de código abierto. Le siguen Vicuña 33B y el LlaMA-2 original, lanzado por Meta.
Los modelos de código abierto desempeñan un papel importante en el desarrollo del espacio de la IA por diferentes motivos. Se pueden ejecutar localmente, lo que brinda a los usuarios la oportunidad de ajustarlos e involucra a la comunidad en un esfuerzo colectivo para perfeccionar el modelo. También son más baratos de ejecutar debido a sus licencias, razón por la cual el espacio tiene docenas de LLM de código abierto y solo un puñado de modelos propietarios.
Pero el juego de los chatbots de IA no se trata únicamente de números. Se trata de implicaciones en el mundo real.
A medida que los chatbots se vuelven integrales en diversos sectores, desde el servicio al cliente hasta los asistentes personales, su eficacia, adaptabilidad y precisión se vuelven primordiales. Dado que los modelos Claude tienen una clasificación superior a GPT-3.5, las empresas y los usuarios individuales pueden encontrarse en una encrucijada al evaluar qué modelo se alinea mejor con sus necesidades. Descifrar ha preparado dos guías para ayudarte a decidir qué modelo te conviene más.
Para los no iniciados, esto podría parecer una actualización más de la tabla de clasificación. Pero para quienes observan de cerca la industria de la IA, es un testimonio de cuán feroz es la competencia y cuán rápido pueden cambiar las mareas. Y en cuanto al resto de nosotros que nos sentamos entre esos dos bandos, es un recordatorio de que en el mundo de la IA, el modelo más popular de hoy podría caer en manos del más eficiente.