Modelo de c贸digo abierto supera a GPT-4 y Claude Opus

A帽adir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuaci贸n+1

2024-06-19 17:09:06

DeepSeek-Coder-V2, un modelo de lenguaje de c贸digo abierto, ha sido lanzado por DeepSeek-AI y supera a los modelos comerciales como GPT-4 y Claude Opus en tareas de generaci贸n de c贸digo.

En el mundo de la inteligencia artificial, la generaci贸n de c贸digo ha experimentado un avance significativo en los 煤ltimos a帽os. Sin embargo, los modelos comerciales como GPT-4 y Claude Opus dominaban el panorama, dejando atr谩s a las opciones de c贸digo abierto. DeepSeek-AI, un colectivo de investigaci贸n acad茅mica, ha desafiado este status quo con el lanzamiento de DeepSeek-Coder-V2.

DeepSeek-Coder-V2 se basa en su predecesor, DeepSeek-V2, y se ha entrenado adicionalmente con 6 billones de tokens de un corpus de m煤ltiples fuentes de alta calidad. Esta mejora le permite soportar 338 lenguajes de programaci贸n, frente a los 86 anteriores, y procesar contextos de hasta 128.000 tokens, frente a los 16.000 anteriores.

Arquitectura y rendimiento

DeepSeek-Coder-V2 utiliza una arquitectura de Mezcla de Expertos (MoE) y se presenta en dos variantes:

  • El modelo de 16 mil millones de par谩metros tiene solo 2.4 mil millones de par谩metros activos.
  • El modelo de 236 mil millones tiene solo 21 mil millones de par谩metros activos.

Ambas versiones han sido entrenadas con un total de 10.2 billones de tokens.

En pruebas como HumanEval o MBPP, DeepSeek-Coder-V2 ha demostrado ser competitivo con los mejores modelos comerciales. La versi贸n de 236 mil millones logr贸 un promedio del 75.3%, ligeramente inferior al 76.4% de GPT-4o pero superior al de GPT-4 o Claude 3 Opus.

En tareas matem谩ticas como GSM8K, MATH o AIME, DeepSeek-Coder-V2 est谩 a la par con los principales modelos comerciales. En tareas de lenguaje, tiene un rendimiento similar a su predecesor, DeepSeek-V2.

Disponibilidad y desaf铆os futuros

El modelo DeepSeek-Coder-V2 est谩 disponible para descargar en Hugging Face bajo una licencia de c贸digo abierto. Esto significa que puede ser utilizado tanto para fines de investigaci贸n como comerciales sin restricciones. Tambi茅n est谩 accesible a trav茅s de una API.

A pesar de los resultados impresionantes, los desarrolladores de DeepSeek-AI reconocen que hay margen de mejora en la capacidad del modelo para seguir instrucciones. Esta es un 谩rea crucial para manejar escenarios de programaci贸n complejos en el mundo real, y es algo en lo que DeepSeek-AI tiene como objetivo trabajar en el futuro.

El modelo DeepSeek-Coder-V2 est谩 disponible para descargar en Hugging Face bajo una licencia de c贸digo abierto. Puede ser utilizado tanto para fines de investigaci贸n como comerciales sin restricciones. Tambi茅n est谩 accesible a trav茅s de una API.

Conclusi贸n

DeepSeek-Coder-V2 representa un avance significativo en el 谩mbito de la generaci贸n de c贸digo abierto. Su rendimiento competitivo con los modelos comerciales l铆deres, junto con su disponibilidad bajo una licencia de c贸digo abierto, lo convierte en una herramienta valiosa para investigadores y desarrolladores. A medida que DeepSeek-AI contin煤e mejorando la capacidad del modelo para seguir instrucciones, DeepSeek-Coder-V2 tiene el potencial de convertirse en una herramienta indispensable para el desarrollo de software.

Deja una opini贸n

Deje una respuesta

馃 AI MAFIA
Logo