
2023-09-07 14:31:10
BioCoder es un punto de referencia diseñado para apoyar el desarrollo de modelos de IA para bioinformática.
Investigadores de la Universidad de Yale y Google Deepmind presentan BioCoder, un punto de referencia para probar la capacidad de los modelos de IA de generar código específico para bioinformática. A medida que aumenten las capacidades de los modelos ChatGPT o de código especializado, los modelos se utilizarán para tareas cada vez más complejas, afirma el equipo.
Generar programas funcionales en bioinformática es un reto importante debido a la cantidad de conocimiento del dominio, la necesidad de operaciones de datos complejas y las dependencias funcionales complejas entre las operaciones, dijeron.
BioCoder está diseñado para ayudar a poner a prueba estas capacidades y, de este modo, apoyar el desarrollo de tales modelos. El benchmark incluye 2.269 problemas de codificación e integra retos del mundo real como dependencias, importaciones y variables globales para explorar mejor las capacidades pragmáticas de codificación de los modelos de IA.
Se basa en 1026 funciones y 1243 métodos en Python y Java, todos ellos procedentes de repositorios bioinformáticos de GitHub y parte de publicaciones revisadas por pares. A partir de ellos, el equipo creó problemas de código con indicaciones, contexto y soluciones de ejemplo.
ChatGPT lidera actualmente el benchmark BioCoder
BioCoder se utilizó para probar InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+ y ChatGPT. El GPT-3.5 Turbo de OpenAI venció a los demás generadores de código con tanta facilidad que el equipo califica la diferencia de «sorprendente». «Este marcado contraste subraya el papel crucial que desempeñan tanto el tamaño del conjunto de datos como el tamaño de los parámetros de los modelos de base a la hora de lograr indicaciones de generación de código de dominio cerrado», afirma el equipo.
En un experimento, sin embargo, el equipo fue capaz de mejorar el rendimiento de StarCoder mediante un ajuste fino. Así, el éxito en dominios especializados como la bioinformática es posible no sólo con grandes modelos lingüísticos como ChatGPT, sino también con modelos más pequeños y especializados, afirman. En el futuro, el equipo tiene previsto probar otros modelos abiertos, como el LLamA2 de Meta, y espera mejoras con modelos de mayor longitud de contexto.
Sin embargo, BioCoder siguió siendo un reto para ChatGPT, ya que el modelo sólo alcanzó una precisión ligeramente inferior al 50 por ciento. GPT-4 aún no se ha probado.
Encontrará más información, pruebas comparativas, código y datos en GitHub.