OpenAI, el 12 de septiembre de 2024, anunció el lanzamiento de un nuevo modelo llamado o1, que marca un avance significativo en las capacidades de IA con un enfoque en el razonamiento mejorado. Este lanzamiento incluye tanto el o1-preview como el más compacto y económico o1-mini. Conocido en los círculos de la IA como el «modelo Strawberry», o1 está generando una gran expectación debido a sus avanzadas funciones.
El o1 de OpenAI representa un cambio hacia la consecución de una inteligencia artificial similar a la humana. Está especialmente diseñado para escribir código y resolver problemas complejos de varios pasos con más eficacia que sus predecesores. Sin embargo, tiene un coste más elevado y una velocidad de procesamiento más lenta que el modelo anterior, GPT-4o. OpenAI describe este lanzamiento como un «avance» para poner de relieve la fase de desarrollo del modelo.
Los usuarios de ChatGPT Plus y Team tienen acceso inmediato tanto a o1-preview como a o1-mini. El acceso para los usuarios de Enterprise y Edu llegará en breve, con planes para extender el acceso a o1-mini a todos los usuarios gratuitos de ChatGPT, aunque no se ha confirmado una fecha concreta de lanzamiento. El coste para que los desarrolladores utilicen o1 en la API se ha fijado en 15 dólares por cada millón de tokens de entrada y 60 dólares por cada millón de tokens de salida, lo que supone un aumento significativo respecto a las tarifas de GPT-4o.
Jerry Tworek, director de investigación de OpenAI, ha explicado que «el entrenamiento de o1 es fundamentalmente diferente al de sus predecesores», aunque no se han revelado detalles concretos sobre las nuevas metodologías. A diferencia de los modelos GPT anteriores, que imitaban patrones a partir de datos de entrenamiento, o1 emplea el aprendizaje por refuerzo, una técnica que utiliza un sistema de recompensas y penalizaciones. Este método, unido a un enfoque de procesamiento en «cadena de pensamiento», permite al modelo resolver problemas paso a paso, de forma similar a los métodos humanos de resolución de problemas.
Como resultado, el nuevo modelo demuestra una mayor precisión y reduce los casos de producción de información incorrecta o «alucinada», aunque no ha eliminado este problema. «Hemos observado que este modelo alucina menos», señala Tworek, pero añade: “No podemos decir que hayamos resuelto las alucinaciones”.
Destacando la destreza del modelo, el director de investigación de OpenAI, Bob McGrew, compartió: «El modelo es mejor resolviendo el examen de matemáticas AP que yo, y eso que yo estudié matemáticas en la universidad.» Además, mencionó que o1 logró un 83% de aciertos en el examen clasificatorio de la Olimpiada Internacional de Matemáticas, lo que supone una clara mejora con respecto al 13% de GPT-4o. En los concursos de programación Codeforces, o1 se situó en el percentil 89 de los participantes.
A pesar de estos avances, o1 no rinde tan bien como GPT-4o a la hora de procesar conocimientos fácticos sobre el mundo. Tampoco puede navegar por Internet ni procesar archivos e imágenes. No obstante, OpenAI cree que o1 introduce una nueva clase de capacidades de IA y representa un importante paso adelante.
Reflexionando sobre las convenciones de denominación de los modelos, McGrew admite: «Voy a ser sincero: creo que, tradicionalmente, se nos da fatal poner nombres», y expresa su esperanza de que «éste sea el primer paso de nombres más nuevos y sensatos que transmitan mejor lo que estamos haciendo al resto del mundo».
Los aspectos exclusivos del modelo o1 permiten vislumbrar un futuro en el que la IA pueda procesar la información de una forma que parezca claramente humana, pero sin dejar de ser una máquina. Como sugiere McGrew, «hay formas en las que parece más humano que los modelos anteriores… pero también hay formas en las que parece sorprendentemente humano». El 17 de septiembre de 2024, OpenAI actualizó los límites de velocidad de los modelos o1. Actualizaron los límites de tasa a 50 consultas/semana para el modelo o1-preview y 50 consultas/día para el modelo o1-mini.