Ici, vous pouvez utiliser ChatGPT alimenté par le nouveau et dernier modèle GPT-4o d'OpenAI. Utilisez l'API officielle GPT-4o pour diffuser le modèle entièrement gratuitement et sans inscription.
Qu'est-ce que GPT-4o (Omni) ?
Un développement majeur cette année d'OpenAI est GPT-4o, sorti à la mi-mai 2024. Il s'agit de leur produit phare le plus récent, avec une date cible d'octobre 2023 et un contexte de 128K.
Le GPT-4o peut gérer une grande variété d'entrées et de sorties, contrairement aux versions précédentes. Des résultats peuvent être obtenus et des informations fournies à l'aide de texte, d'audio, de photos et même de films.
En matière d'audio, GPT-4o peut réagir instantanément, comme lorsque les gens parlent. Son temps de réponse aux entrées audio est de 232 millisecondes en moyenne, avec un maximum de 320 millisecondes ; Ceci est comparable au temps de réponse humain moyen lors d’une conversation.
Fonctionne mieux sur les tâches basées sur du texte que son prédécesseur, GPT-4, surtout lorsqu'il s'agit de langues autres que l'anglais.
Son utilisation est également beaucoup plus rapide et moins coûteuse. Le principal avantage du GPT-4o est son excellente compréhension des signaux visuels et auditifs, meilleure que les modèles précédents.
Comment accéder à GPT-4o ?
GPT-4o est actuellement déployé auprès des utilisateurs de ChatGPT Plus et Team, avec une priorité donnée aux clients payants.
Une fois cette implémentation terminée, ChatGPT gratuit commencera également à apparaître. Seules les nouveautés liées au texte et aux images sont incluses dans cette édition « terne ».
Il existe toujours des avantages pour les utilisateurs payants par rapport aux utilisateurs gratuits, comme une limite de requêtes plus élevée. Ils disposeront également de modes vocaux en temps réel ; Ils seront mis à la disposition des utilisateurs payants ultérieurement.
Différence entre GPT-4o et GPT-4 ? Quel modèle est le meilleur ?
Le GPT-4o est une version améliorée de la série GPT, avec des fonctions multimodes, une vitesse et des performances améliorées.
Capacités multimodales
Contrairement à GPT-4, qui se concentre exclusivement sur le texte, GPT-4o combine la capacité de traiter et de produire des résultats à partir d'entrées textuelles, visuelles et auditives.
20 langues ont été sélectionnées pour fournir une représentation de la compression du nouveau tokenizer dans différentes familles de langues.
GPT-4o surpasse GPT-4 sur M3Exam, qui est l'évaluation linguistique et visuelle composée de questions à choix multiples tirées d'examens standardisés de différents pays, parfois accompagnées d'images et de diagrammes.
Dans ce test, GPT-4o surpasse GPT-4 dans toutes les langues. Les résultats sur la vision en swahili et en javanais sont exclus, car il n'y a que cinq questions sur la vision ou moins dans ces langues.
Performances et vitesse
Comparé à GPT-4, GPT-4o serait nettement plus rapide et plus rentable, répondant plus rapidement et gérant plus efficacement de plus grandes quantités de données.
En ce qui concerne MMLU de 0 tirs COT (questions de culture générale), GPT-4o fixe un nouveau score maximum de 88,7 %. De plus, GPT-4o fixe un nouveau score maximum de 87,2 % sur le MMLU standard à 5 questions sans COT.
Capacités visuelles
Contrairement à GPT-4, GPT-4o peut comprendre et analyser des données visuelles, augmentant ainsi son utilité pour les tâches impliquant des supports mixtes ou des images.
GPT-4o est le meilleur de sa catégorie en matière de tests de perception visuelle. Avec MMMU, MathVista et ChartQA en tant que CoT 0-shot, toutes les évaluations de la vision sont 0-shot.
Non seulement cela, mais GPT-4o a surpassé GPT-4 dans plusieurs tests de référence (tels que MMLU et HumanEval), démontrant de meilleures performances sur les tâches qui nécessitent le multilinguisme et un raisonnement compliqué.
Performances de traduction audio
Pour évaluer l'efficacité de divers modèles d'IA, des tâches de traduction audio ont été effectuées à l'aide de la notation BLEU sur les modèles OpenAI, Meta et Google.
Les modèles examinés étaient Audiopalm-2 et GEMINI de Google, Whisper v3 et GPT-4o d'OpenAI, et XLS-R et SeamlessMW47v2 de Meta.
Selon les résultats, Chuchotement v3, Audiopalm-2 et Gemini obtiennent les meilleurs résultats, avec environ 45 points BLEU.
Le sigue SeamlessMW47v2 con 35 puntos, XLS-R con 25 y GPT-40 con 20. La mayor precisión en la traducción de audio se refleja en las puntuaciones BLEU más altas, con Whisper v3 de OpenAI, Audiopalm-2 de Google y Gemini a la tête.
Ces résultats impliquent que les modèles Google et OpenAI fonctionnent bien pour les applications nécessitant une traduction audio de haute qualité. Les écarts de performances peuvent être attribués à des changements dans les données de formation, l'architecture et les stratégies d'optimisation.
caracteristica | GPT-4 | GPT-4o |
Modalités prises en charge | Texte seulement | Texte, visuel, audio |
Vitesse de réponse | Standard (1 minute et 10 secondes pour 488 mots) | Plus rapide (12 secondes pour 488 mots) |
Capacités visuelles | Aucun | Fonctionnalités de vision avancées |
Performance multilingue | Bon pour l'anglais, basique pour les autres langues | Amélioré pour plusieurs langues, y compris non-anglais |
Tarification de l'utilisation de l'API | Plus cher | Moins cher (la moitié de celui de GPT-4) |
Indicateurs de rendu | Des scores de référence inférieurs | De meilleurs résultats dans des benchmarks tels que MMLU et HumanEval |
l'accès à Internet | Comprend l'accès Internet | Pas d'accès Web ; n'utilise les données que jusqu'en octobre 2023 |
Interface des applications | Interface standard ChatGPT | Accessible via ZenoChat pour des fonctionnalités améliorées |
Vitesse de l'API | Génération plus lente des jetons de sortie | Plus rapide sur les jetons d'entrée et de sortie |
capacité multitâche | Limité aux tâches basées sur du texte | Capable de gérer des tâches multitâches complexes impliquant des données audio et visuelles. |
Pour les utilisateurs qui souhaitent des fonctionnalités d'interaction multimodale, des temps de réponse plus rapides et une meilleure gestion du contenu multilingue, GPT-4o semble être une excellente mise à niveau par rapport à GPT-4.
Il fonctionne particulièrement bien pour les applications avancées qui doivent intégrer le traitement des données en temps réel du texte, des graphiques et de l'audio.
Fonctionnalités étonnantes de GPT-4o : graphiques, images, Excel et plus
La dernière création d'OpenAI, GPT-4o, repousse les limites de l'intelligence artificielle. Ce modèle intègre des fonctionnalités avancées qui utilisent des données multimodales, telles que du texte, des graphiques et de l'audio, pour améliorer l'interaction de l'utilisateur et simplifier les tâches difficiles.
Capacité d'analyse
Les utilisateurs peuvent directement télécharger et travailler avec des documents Excel ou Google Sheets en utilisant GPT-4o. Les utilisateurs peuvent poser des questions complexes sur les informations contenues dans ces documents, comme par exemple confirmer les chiffres d'une prévision marketing. Cette fonctionnalité facilite la gestion de grands ensembles de données et est particulièrement utile pour l'analyse des données.
Compréhension de l'infographie
Les infographies peuvent également être comprises et interprétées avec GPT-4o. L'objectif de cette fonctionnalité est d'aider les consommateurs à comprendre les informations complexes affichées graphiquement, telles que les infographies.
Par exemple, un utilisateur peut demander à GPT-4o de clarifier le texte d'une infographie contenant plus de 100 chiffres. Pour les professionnels et les étudiants qui travaillent souvent avec des visualisations de grands volumes de données, cette fonctionnalité est inestimable.
Convertir des images dans différents styles
Avec le modèle ChatGPT-4o, les utilisateurs peuvent envoyer une photo prise par eux-mêmes et demander à l'IA de la modifier pour l'adapter à l'esthétique spécifique qu'ils souhaitent.
Joindre des fichiers depuis le lecteur
Vous pouvez désormais choisir vos fichiers à d’autres endroits à ajouter à GPT-4o. Il vous permet de connecter Google Drive et Microsoft OneDrive afin de pouvoir ajouter directement vos feuilles Excel, Google Docs ou même des images.
Tarification de l'API GPT-4o
La tarification de l'API de GPT-4o est plus avantageuse que celle de GPT-4, avec des prix de jetons d'entrée et de sortie moins chers.
L'API GPT-4o est facturée en fonction du nombre de jetons gérés, à l'aide d'un système de paiement à l'utilisation. GPT-4o a un prix plus raisonnable grâce à sa réduction de coût de 50 % par rapport aux versions précédentes comme GPT-4.
Cependant, certaines personnes dans Communauté de développeurs OpenAI Ils affirment que GPT-4o (via Playground et API) utilise beaucoup plus de jetons que GPT-4 Turbo.
Cette disparité pourrait être due aux variations dans la manière dont les différents modèles gèrent des tâches spécifiques, telles que le traitement des entrées et la recherche de fichiers.
Modèle | entrée | Départ |
GPT-4o | 4,61 euros/1 million de jetons | 13,82 euros/1 million de jetons |
GPT-4o-2024-05-13 | 4,61 euros/1 million de jetons | 13,82 euros/1 million de jetons |
GPT-4o Sécurité et limites
Pour garantir que le modèle est moins susceptible de fournir des résultats inappropriés, les matières dangereuses sont filtrées de l'ensemble de données de formation. Le comportement du modèle est encore amélioré pour se conformer aux procédures de sécurité après la formation initiale.
GPT-4o a été évalué pour son pouvoir de persuasion, son autonomie de modèle, sa cybersécurité et ses dangers liés aux matières chimiques, biologiques, radiologiques et nucléaires (CBRN). Le GPT-4o n’a reçu une note supérieure à risque moyen dans aucune de ces évaluations.
Cela implique une stratégie méthodique pour réduire les risques potentiels. Tout au long de la phase de formation du modèle, des évaluations automatisées et humaines ont été utilisées pour évaluer les versions avant et après rétrogradation.
Même avec plusieurs précautions de sécurité, il existe certaines restrictions dans tous les modes du modèle.
Disponibilité GPT-4o
Les fonctionnalités de texte et d'image GPT-4o commencent à apparaître dans ChatGPT. De plus, les utilisateurs peuvent désormais accéder à GPT-4o avec des restrictions de messages jusqu'à cinq fois plus élevées, ainsi que dans la version gratuite.
Dans les semaines à venir, OpenAI publiera une version alpha du mode vocal avec GPT-4o au sein de Chat GPT Plus.
GPT-4o est actuellement disponible pour les développeurs via API en tant que modèle de texte et de vision. En comparaison avec GPT-4 Turbo, GPT-4o est deux fois plus rapide, deux fois moins cher et a cinq fois les limites de vitesse.
Dans les semaines à venir, nous souhaitons mettre les fonctionnalités audio et vidéo améliorées de GPT-4o à la disposition de quelques partenaires de confiance via l'API.
Foire aux questions (FAQ)
Comment ChatGPT 4o peut-il être utilisé ?
ChatGPT 4o prend en charge la saisie de texte, d'image et vocale. Il est capable d'analyser des données, de compréhension et d'interprétation d'images complexes, de transformation d'images et de réactions multilingues adaptées au contexte.
Quelles fonctions propose l'API GPT-4o ?
Avec l'aide de l'API GPT-4o, les programmeurs peuvent intégrer des fonctions d'IA sophistiquées dans leurs applications, telles que la génération et le traitement de texte, l'analyse et l'interprétation d'images et la gestion des entrées audio. Il prend également en charge des tâches complexes telles que l'analyse de données, les expériences utilisateur interactives et la production de contenu.
Le GPT-4o est-il supérieur au GPT-4 ?
Oui, GPT-4o est une version améliorée qui offre de meilleures fonctionnalités, des temps de réaction plus rapides et la prise en charge de la saisie multimodale (texte, graphiques et audio). Par rapport à GPT-4, il a également amélioré les mesures de sécurité et est plus précis dans diverses activités.
Comment utiliser la voix ChatGPT 4o ?
Utilisez simplement un navigateur Web pour vous connecter à votre compte ChatGPT et essayez d'accéder à GPT-4o. Recherchez l'option GPT-4o dans le menu déroulant dans le coin supérieur gauche, qui est marquée comme le « modèle le plus récent et le plus avancé » d'OpenAI. En vous inscrivant, vous acceptez nos conditions d'utilisation et notre politique de confidentialité.
GPT-4o est-il capable de traduire des langues en temps réel ?
Oui, GPT-4o est capable d'effectuer des traductions orales et textuelles en temps réel. Cela le rend extrêmement utile pour les applications telles que le service client, les réunions internationales et le développement de contenu multilingue qui nécessitent une communication instantanée dans plusieurs langues.
Comment les sorties audio du GPT-4o sont-elles sécurisées ?
Pour ses sorties audio, GPT-4o intègre des fonctionnalités de sécurité telles que des limiteurs de voix programmés et des règles de sécurité strictes qui doivent être respectées. Ces mesures de sécurité visent à freiner l'utilisation abusive des capacités de création audio, en garantissant que les résultats sont appropriés et sûrs.