¿Cual es la mejor IA de uso general? Claude 3 supera por primera vez a GPT-4 según los propios usuarios.

36 Views 0

GuardarSavedRemoved 0

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0

Puntuación+2

2024-03-28 09:15:10

El martes, el modelo de lenguaje grande Claude 3 Opus de Anthropic superó por primera vez a GPT-4 de OpenAI (que alimenta ChatGPT) en Chatbot Arena, una popular tabla de clasificación utilizada por investigadores de IA para evaluar las capacidades relativas de los modelos de lenguaje de IA. «El rey ha muerto,» tuiteó el desarrollador de software Nick Dobos en un post comparando GPT-4 Turbo y Claude 3 Opus que ha estado circulando en redes sociales. «RIP GPT-4.»

Desde que GPT-4 fue incluido en Chatbot Arena alrededor del 10 de mayo de 2023 (la tabla de clasificación se lanzó el 3 de mayo de ese año), las variaciones de GPT-4 han estado consistentemente en la cima de la tabla hasta ahora, por lo que su derrota en la Arena es un momento notable en la historia relativamente corta de los modelos de lenguaje de IA. Uno de los modelos más pequeños de Anthropic, Haiku, también ha estado llamando la atención con su desempeño en la tabla de clasificación.

Por primera vez, según Simon Willison, un experto en inteligencia artificial que habló con Ars Technica, los mejores modelos disponibles para tareas avanzadas son Opus, y para un enfoque más económico y eficiente, Haiku. Es reconfortante ver que la diversidad de proveedores en este ámbito nos beneficia a todos. Sin embargo, GPT-4 lleva más de un año siendo líder en este aspecto, y ha pasado un año antes de que otros modelos lo alcancen.

Una captura de pantalla de la tabla de clasificación de Chatbot Arena LMSYS mostrando a Claude 3 Opus en la delantera contra GPT-4 Turbo, actualizada el 26 de marzo de 2024.

Chatbot Arena es administrado por Large Model Systems Organization (LMSYS ORG), una organización de investigación dedicada a modelos abiertos que opera como una colaboración entre estudiantes y profesores de la Universidad de California, Berkeley, la UC San Diego y la Universidad Carnegie Mellon.

En diciembre, realizamos un perfil detallado del funcionamiento del sitio, pero para resumirlo, en Chatbot Arena, cuando un usuario visita el sitio, se encuentra con un cuadro de entrada de chat y dos ventanas que muestran las salidas de dos LLM no etiquetados. La tarea del usuario consiste en evaluar y calificar cuál de estas salidas es superior, utilizando los criterios que considere más pertinentes. A través de miles de estas comparaciones subjetivas, Chatbot Arena realiza un exhaustivo cálculo para determinar los modelos «mejores» en conjunto. Este proceso contribuye a llenar y actualizar continuamente la tabla de clasificación del sitio, reflejando así la evolución y el rendimiento de los distintos modelos de manera dinámica.

Chatbot Arena es importante para los investigadores porque a menudo encuentran frustración al tratar de medir el rendimiento de los chatbots de IA, cuyas salidas muy variables son difíciles de cuantificar. De hecho, hablamos sobre lo difícil que es objetivamente medir los LLM en nuestro artículo sobre el lanzamiento de Claude 3. Para esa historia, Willison enfatizó el importante papel de las «vibraciones» o sentimientos subjetivos en determinar la calidad de un LLM. «Otro caso de ‘vibraciones’ como un concepto clave en la IA moderna,» dijo.

Una captura de pantalla de Chatbot Arena el 27 de marzo de 2024 mostrando la salida de dos LLMs aleatorios a los que se les ha preguntado, «¿Se llamaría el color ‘magenta’ si la ciudad de Magenta no existiera?»

En el campo de la inteligencia artificial, es común hablar de «vibraciones», donde las referencias numéricas que miden el conocimiento o la capacidad de tomar exámenes son escogidas selectivamente por los proveedores para que sus resultados parezcan mejores. El desarrollador de software de IA Anton Bacaj compartió en un tuit del 19 de marzo su experiencia tras una larga sesión de codificación con Claude 3 opus, destacando su superioridad sobre gpt-4 y cuestionando si las pruebas estándar son suficientes para evaluar este modelo.

Just had a long coding session with Claude 3 opus and man does it absolutely crush gpt-4. I don’t think standard benchmarks do this model justice
— anton (@abacaj) March 19, 2024

El ascenso de Claude podría hacer que OpenAI se detenga a reflexionar. Sin embargo, como mencionó Willison, la familia de GPT-4 (aunque ha sido actualizada varias veces) tiene más de un año. Actualmente, la Arena enumera cuatro versiones diferentes de GPT-4, cada una con actualizaciones incrementales. Estas versiones se mantienen estáticas en el tiempo debido a sus estilos de salida únicos, lo que garantiza consistencia para los desarrolladores que las utilizan con la API de OpenAI y evitan que sus aplicaciones se vean afectadas.

Estos incluyen GPT-4-0314 (la versión «original» de GPT-4 de marzo de 2023), GPT-4-0613 (una instantánea de GPT-4 del 13 de junio de 2023, con «soporte mejorado para llamadas de función,» según OpenAI), GPT-4-1106-preview (la versión de lanzamiento de GPT-4 Turbo de noviembre de 2023) y GPT-4-0125-preview (el modelo GPT-4 Turbo más reciente, destinado a reducir casos de «pereza» desde enero de 2024).

Aun así, incluso con cuatro modelos de GPT-4 en la tabla de clasificación, los modelos de Claude 3 de Anthropic han estado subiendo constantemente en la tabla desde su lanzamiento a principios de este mes. El éxito de Claude 3 entre los usuarios de asistentes de IA ya tiene a algunos usuarios de LLM reemplazando ChatGPT en su flujo de trabajo diario, potencialmente comiéndose la cuota de mercado de ChatGPT. En X, el desarrollador de software Pietro Schirano escribió, «Honestamente, lo más sorprendente de todo este Claude 3 > GPT-4 es ¡cómo fácil es simplemente… cambiar??»

La competencia Gemini Advanced de Google está ganando terreno en el ámbito de los asistentes de IA. Esto podría alertar a OpenAI por el momento, pero a largo plazo, la compañía está preparando nuevos modelos. Se espera el lanzamiento de un sucesor importante de GPT-4 Turbo (ya sea nombrado GPT-4.5 o GPT-5) en algún momento de este año, posiblemente durante el verano. Es evidente que el espacio de los LLM estará lleno de competencia en este momento, lo que podría dar lugar a cambios más interesantes en la tabla de clasificación de Chatbot Arena en los próximos meses y años.

¿Cual es la mejor IA de uso general? Claude 3 supera por primera vez a GPT-4 según los propios usuarios.

El sector financiero espera una adopción generalizada de la IA generativa en dos años.

Amazon invierte $2.75B en Anthropic en su mayor inversión empresarial hasta el momento

Investigadores chinos utilizan LLMs para el control de drones militares

Aumento de pedidos del chip H20 de Nvidia tras la adopción de modelos de IA DeepSeek por empresas chinas.

Microsoft revela que los hackers pueden eludir 100 herramientas de IA sin necesidad de matemáticas complejas

Nuevo API de Black Forest Labs permite ajustar modelos Flux Pro con solo unos pocos ejemplos

Deje una respuesta Cancelar respuesta