2024-09-13- Descubre cómo OpenAI está revolucionando la inteligencia artificial con su último modelo, o1, diseñado para mejorar el razonamiento lógico y la eficiencia en tareas complejas. Conoce los detalles sobre su capacidad de procesamiento y su impacto en el futuro de la IA.
OpenAI y su modelo revolucionario o1: El futuro de la inteligencia artificial
OpenAI ha desvelado recientemente su innovador proyecto «Strawberry», que introduce un nuevo modelo de inteligencia artificial llamado o1. Este modelo ha sido diseñado específicamente para optimizar el tiempo dedicado al procesamiento de preguntas, estableciendo un nuevo estándar en la lógica de la inteligencia artificial. Aunque no se considera superior en todas las tareas, o1 pretende crear un horizonte de escalabilidad mediante el incremento del poder computacional.
Según OpenAI, el modelo o1 representa un avance significativo y una nueva dimensión en las capacidades de la inteligencia artificial. Se ha entrenado utilizando el aprendizaje por refuerzo, lo que le permite llevar a cabo un «proceso de pensamiento» interno antes de proporcionar respuestas. Noam Brown, uno de los desarrolladores del modelo, explica cómo o1 ha sido diseñado para «pensar» antes de responder, utilizando una cadena de pensamiento privada. Cuanto más tiempo pasa pensando, mejor rendimiento muestra en tareas de razonamiento.
Una nueva era en la escalabilidad de IA: Idóneo para tareas basadas en lógica
Este enfoque coincide con las expectativas previamente establecidas sobre el Proyecto Strawberry. Brown menciona que esta innovación abre nuevas posibilidades para la escalabilidad, afirmando: «Ya no estamos limitados por el preentrenamiento, ahora podemos escalar el compute de inferencia también». Esto sugiere que el futuro de la inteligencia artificial podría centrarse en la mejora del procesamiento de información en lugar de depender únicamente del entrenamiento previo.
Brown también advierte que los modelos o1 no superan a su predecesor, GPT-4o, en todos los ámbitos. Señala que «nuestros modelos o1 no siempre son mejores que GPT-4o. Muchas tareas no requieren razonamiento, y a veces no vale la pena esperar por una respuesta de o1 en lugar de la rápida respuesta de GPT-4o». Esto resalta la importancia de seleccionar el modelo adecuado según la naturaleza de la tarea que se desea realizar.
Los humanos valoran mejor la producción de GPT-4o en tareas de redacción y edición, mientras que el nuevo modelo brilla en lógica. | Imagen: vía OpenAI
El lanzamiento de o1-preview, una versión simplificada de o1, tiene como objetivo identificar casos de uso óptimos y áreas de mejora. Brown reconoce que «OpenAI o1-preview no es perfecto. A veces falla incluso en juegos simples como el tres en raya. La gente compartirá casos de fallo. Sin embargo, en muchos ejemplos populares que la gente ha utilizado para mostrar que ‘los modelos de lenguaje no pueden razonar’, o1-preview tiene un rendimiento sustancialmente mejor, y o1 logra resultados increíbles, además de que sabemos cómo escalarlo aún más».
Mayor potencia de cálculo, mejor razonamiento
Por el momento, o1 necesita solo unos segundos para reflexionar antes de ofrecer una respuesta. Sin embargo, la visión futura de OpenAI es que el modelo pueda dedicar horas, días o incluso semanas a pensar una respuesta. Aunque esto podría incrementar el coste de la inferencia, se justificará para aplicaciones pioneras, como el desarrollo de nuevos fármacos o la demostración de la Hipótesis de Riemann. «La IA puede ser algo más que chatbots”, enfatiza Brown.
En cuanto a la disponibilidad, OpenAI ya ha puesto a disposición los modelos o1-preview y o1-mini a través de ChatGPT. También se están publicando los resultados de evaluación del modelo o1, que aún está en desarrollo.
Brown sostiene que el propósito de este avance no es simplemente una mejora puntual en la tecnología, sino más bien la creación de un nuevo paradigma para la escalabilidad de los modelos de inteligencia artificial. “Estamos solo al principio”, afirma.
O1-mini, la solución asequible para tareas STEM
Junto con o1-preview, OpenAI ha introducido o1-mini, una versión optimizada para aplicaciones en STEM, que es más económica. O1-mini logra casi el mismo rendimiento que o1 en tareas de matemáticas y programación, pero a un costo significativamente inferior. Por ejemplo, en una competencia de matemáticas de secundaria, o1-mini alcanzó el 70% de la puntuación de o1, mientras que o1-preview solo llegó al 44.6%.
En desafíos de programación en la plataforma Codeforces, o1-mini rinde de forma casi equivalente a o1 con un puntaje de 1650 en Elo, superando significativamente a o1-preview que obtuvo 1258 puntos. En la evaluación de codificación HumanEval, los modelos o1 (92.4%) tienen un rendimiento ligeramente superior a GPT-4o (90.2%).
Dado su enfoque específico en STEM, el conocimiento general de o1-mini en otras áreas es comparable al de modelos de lenguaje más pequeños como GPT-4o mini, según OpenAI.
Los usuarios de ChatGPT Plus y Team tienen acceso inmediato a o1-preview y o1-mini, mientras que los usuarios de Enterprise y Edu podrán acceder a los modelos a principios de la próxima semana. OpenAI planea que todos los usuarios de ChatGPT gratuitos también puedan acceder a o1-mini, aunque aún no se ha fijado una fecha de lanzamiento.
En cuanto a precios, o1-preview tiene un coste de $15 por cada 1 millón de tokens de entrada y $60 por cada 1 millón de tokens de salida. En comparación, GPT-4o presenta un costo significativamente menor: $5 por cada 1 millón de tokens de entrada y $15 por cada 1 millón de tokens de salida. Se informa que o1-mini estará disponible para los usuarios de Tier 5 de la API y costará un 80% menos que o1-preview.
Perspectivas de expertos sobre el modelo o1
Jim Fan, investigador de inteligencia artificial en Nvidia, ha compartido una de las primeras evaluaciones del modelo o1 desde fuera de la empresa. En una publicación de LinkedIn, Fan afirma que o1 acerca el paradigma de escalamiento en inferencia, previamente discutido en la investigación, a la producción real del mercado.
Fan observa que los modelos diseñados para el razonamiento lógico no necesitan ser extremadamente grandes. Muchos parámetros almacenan principalmente hechos para funcionar bien en benchmarks como pruebas de conocimiento. Existe la posibilidad de separar la lógica y el conocimiento en un pequeño «núcleo de razonamiento», que sabe cómo llamar herramientas como navegadores y verificadores de código, lo que podría reducir los requisitos de cálculo en el preentrenamiento.
A diferencia de otros modelos, Strawberry traslada la mayor parte del cálculo hacia la inferencia. Fan explica que los modelos de lenguaje son simuladores textuales. Al considerar múltiples estrategias y escenarios, el modelo converge eventualmente en soluciones efectivas. Además, indica que OpenAI probablemente ha comprendido la ley de escalamiento en inferencia desde hace tiempo, mientras que la comunidad científica acaba de comenzar a ponerse al día.
Mientras que la mayoría de los LLMs invierten considerablemente en preentrenamiento, Strawberry asigna una mayor parte a la inferencia. | Imagen: Jim Fan
No obstante, Fan advierte que comercializar o1 presenta desafíos mayores que alcanzar elevados estándares académicos. Para resolver problemas lógicos reales, es necesario decidir cuándo detener la búsqueda, qué funciones de recompensa y criterios de éxito emplear, y cuándo incluir herramientas como intérpretes de código. También se debe tener en cuenta el costo computacional de estos procesos.
Fan sostiene que Strawberry podría convertirse en un auténtico «flywheel de datos». Cuando las respuestas son correctas, toda la trayectoria de búsqueda podría conformar un mini-conjunto de datos de ejemplos de entrenamiento con recompensas positivas y negativas, lo que posiblemente fortalecería el «núcleo de razonamiento» para futuras versiones de GPT.