OpenAI présente le modèle o1 : le premier modèle doté de capacités de raisonnement

OpenAI, le 12 septembre 2024, a annoncé le lancement d'un nouveau modèle appelé o1, qui marque une avancée significative dans les capacités de l'IA en mettant l'accent sur un raisonnement amélioré. Cette version comprend à la fois l'o1-preview et l'o1-mini, plus compact et abordable. Connu dans les cercles de l’IA sous le nom de « modèle Strawberry », o1 génère beaucoup de buzz en raison de ses fonctionnalités avancées.

L'o1 d'OpenAI représente une évolution vers une intelligence artificielle de type humain. Il est spécialement conçu pour écrire du code et résoudre des problèmes complexes en plusieurs étapes plus efficacement que ses prédécesseurs. Cependant, son coût est plus élevé et sa vitesse de traitement est plus lente que le modèle précédent, GPT-4o. OpenAI décrit cette version comme une « percée » pour mettre en évidence la phase de développement du modèle.

Les utilisateurs de ChatGPT Plus et Team ont un accès immédiat à o1-preview et o1-mini. L'accès pour les utilisateurs Enterprise et Edu arrive bientôt, avec des plans pour étendre l'accès à o1-mini à tous les utilisateurs ChatGPT gratuits, bien qu'une date de sortie spécifique n'ait pas été confirmée. Le coût pour les développeurs d'utiliser o1 dans l'API a été fixé à 15 $ par million de jetons d'entrée et à 60 $ par million de jetons de sortie, ce qui représente une augmentation significative par rapport aux tarifs GPT-4o.

Jerry Tworek, directeur de recherche chez OpenAI, a expliqué que « la formation d'o1 est fondamentalement différente de celle de ses prédécesseurs », bien qu'aucun détail concret sur les nouvelles méthodologies n'ait été révélé. Contrairement aux modèles GPT précédents, qui imitaient des modèles de données de formation, o1 utilise l'apprentissage par renforcement, une technique qui utilise un système de récompenses et de pénalités. Cette méthode, couplée à une approche de traitement « chaîne de pensée », permet au modèle de résoudre les problèmes étape par étape, à l’instar des méthodes humaines de résolution de problèmes.

En conséquence, le nouveau modèle démontre une plus grande précision et réduit les cas de production d’informations incorrectes ou « délirantes », même s’il n’élimine pas ce problème. "Nous avons observé que ce modèle hallucine moins", explique Tworek, mais ajoute : "Nous ne pouvons pas dire que nous avons résolu les hallucinations."

Soulignant les prouesses du modèle, le directeur de recherche d'OpenAI, Bob McGrew, a déclaré : "Le modèle est meilleur que moi pour résoudre l'examen de mathématiques AP, même si j'ai étudié les mathématiques à l'université." En outre, il a mentionné que o1 a obtenu 83% de bonnes réponses à l'examen de qualification de l'Olympiade internationale de mathématiques, ce qui représente une nette amélioration par rapport aux 13% de GPT-4o. Dans les concours de programmation Codeforces, o1 s'est classé dans le 89e percentile des participants.

Malgré ces progrès, o1 ne fonctionne pas aussi bien que GPT-4o lors du traitement des connaissances factuelles sur le monde. Il ne peut pas non plus naviguer sur Internet ni traiter des fichiers et des images. Cependant, OpenAI estime qu’o1 introduit une nouvelle classe de capacités d’IA et représente un pas en avant important.

En réfléchissant aux conventions de dénomination des modèles, McGrew admet : « Je vais être honnête : je pense que nous sommes traditionnellement mauvais pour nommer des noms », et exprime l'espoir que « c'est la première étape vers des noms plus récents et plus sensés ». mieux transmettre ce que nous faisons au reste du monde. »

Les aspects uniques du modèle o1 offrent un aperçu d’un avenir dans lequel l’IA pourra traiter les informations d’une manière qui semble distinctement humaine, tout en restant une machine. Comme le suggère McGrew, "il y a des façons dont il semble plus humain que les modèles précédents... mais il y a aussi des façons dont il semble étonnamment humain". Le 17 septembre 2024, OpenAI a mis à jour le limites de vitesse des modèles o1. Ils ont mis à jour les limites de débit à 50 requêtes/semaine pour le modèle o1-preview et à 50 requêtes/jour pour le modèle o1-mini.