OpenAI annonce le modèle d'IA GPT-4o avec des capacités multimodales étendues

Avec le lancement officiel du modèle GPT-4o à San Francisco, OpenAI contribue à la technologie de l'intelligence artificielle. Le nouveau modèle, où « o » signifie « omni », peut gérer n'importe quelle combinaison d'entrées et de sorties via ces modalités, car il combine les capacités de traitement du texte, de l'audio et du visuel sous une structure unique. 

Sur les tâches de texte et de code, la performance de GPT-4o est similaire à son prédécesseur, GPT-4 Turbo, mais est nettement meilleur dans la gestion des langues autres que l'anglais et des fonctionnalités multimodales telles que l'audio et la vision. Le nouveau modèle se distingue par un temps de réponse allant jusqu'à 232 millisecondes aux entrées audio, ce qui est remarquablement similaire à la rapidité avec laquelle les gens réagissent dans des situations réelles.  

GPT-4o représente une amélioration significative par rapport à GPT-4 Turbo en termes de coût et d'efficacité. C'est 50 % moins cher, deux fois plus rapide et les limites de messages sont cinq fois supérieures. Cela augmente son utilité en tant qu'outil à la fois pour les développeurs et les utilisateurs finaux.

OpenAI a mis en avant les nombreuses fonctionnalités de sécurité intégrées à GPT-4o, visant à réduire les risques liés à son utilisation. Ces tests approfondis recherchent de nouvelles capacités ; Le modèle a fait l’objet de tests approfondis, notamment d’une équipe rouge externe menée par plus de soixante-dix experts dans divers domaines. L'objectif de ces tests approfondis est de garantir que les nombreuses fonctionnalités de GPT-4o sont sécurisées pour un usage public.

Les fonctionnalités de texte et d'image de GPT-4o sont désormais incluses dans ChatGPT d'OpenAI, accessible aux utilisateurs Plus et gratuits. Dans les semaines à venir, ChatGPT Plus publiera une version alpha d'un nouveau mode vocal intégrant GPT-4o. De plus, GPT-4o est actuellement disponible pour les développeurs via API en tant que modèle de texte et de vision. La prise en charge des fonctionnalités audio et vidéo pour les partenaires de confiance sera bientôt ajoutée.