Modelo de código abierto supera a GPT-4 y Claude Opus

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación+1

2024-06-19 17:09:06

DeepSeek-Coder-V2, un modelo de lenguaje de código abierto, ha sido lanzado por DeepSeek-AI y supera a los modelos comerciales como GPT-4 y Claude Opus en tareas de generación de código.

En el mundo de la inteligencia artificial, la generación de código ha experimentado un avance significativo en los últimos años. Sin embargo, los modelos comerciales como GPT-4 y Claude Opus dominaban el panorama, dejando atrás a las opciones de código abierto. DeepSeek-AI, un colectivo de investigación académica, ha desafiado este status quo con el lanzamiento de DeepSeek-Coder-V2.

DeepSeek-Coder-V2 se basa en su predecesor, DeepSeek-V2, y se ha entrenado adicionalmente con 6 billones de tokens de un corpus de múltiples fuentes de alta calidad. Esta mejora le permite soportar 338 lenguajes de programación, frente a los 86 anteriores, y procesar contextos de hasta 128.000 tokens, frente a los 16.000 anteriores.

Arquitectura y rendimiento

DeepSeek-Coder-V2 utiliza una arquitectura de Mezcla de Expertos (MoE) y se presenta en dos variantes:

  • El modelo de 16 mil millones de parámetros tiene solo 2.4 mil millones de parámetros activos.
  • El modelo de 236 mil millones tiene solo 21 mil millones de parámetros activos.

Ambas versiones han sido entrenadas con un total de 10.2 billones de tokens.

En pruebas como HumanEval o MBPP, DeepSeek-Coder-V2 ha demostrado ser competitivo con los mejores modelos comerciales. La versión de 236 mil millones logró un promedio del 75.3%, ligeramente inferior al 76.4% de GPT-4o pero superior al de GPT-4 o Claude 3 Opus.

En tareas matemáticas como GSM8K, MATH o AIME, DeepSeek-Coder-V2 está a la par con los principales modelos comerciales. En tareas de lenguaje, tiene un rendimiento similar a su predecesor, DeepSeek-V2.

Disponibilidad y desafíos futuros

El modelo DeepSeek-Coder-V2 está disponible para descargar en Hugging Face bajo una licencia de código abierto. Esto significa que puede ser utilizado tanto para fines de investigación como comerciales sin restricciones. También está accesible a través de una API.

A pesar de los resultados impresionantes, los desarrolladores de DeepSeek-AI reconocen que hay margen de mejora en la capacidad del modelo para seguir instrucciones. Esta es un área crucial para manejar escenarios de programación complejos en el mundo real, y es algo en lo que DeepSeek-AI tiene como objetivo trabajar en el futuro.

El modelo DeepSeek-Coder-V2 está disponible para descargar en Hugging Face bajo una licencia de código abierto. Puede ser utilizado tanto para fines de investigación como comerciales sin restricciones. También está accesible a través de una API.

Conclusión

DeepSeek-Coder-V2 representa un avance significativo en el ámbito de la generación de código abierto. Su rendimiento competitivo con los modelos comerciales líderes, junto con su disponibilidad bajo una licencia de código abierto, lo convierte en una herramienta valiosa para investigadores y desarrolladores. A medida que DeepSeek-AI continúe mejorando la capacidad del modelo para seguir instrucciones, DeepSeek-Coder-V2 tiene el potencial de convertirse en una herramienta indispensable para el desarrollo de software.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo