OpenAI a annoncé le 19 novembre 2024 l'extension du mode vocal avancé de ChatGPT au Web, marquant une étape majeure pour son populaire chatbot IA. Initialement disponible uniquement pour les utilisateurs mobiles premium, cette dernière mise à jour apporte les interactions vocales directement aux navigateurs Web, permettant aux abonnés payants d'interagir avec ChatGPT via des conversations vocales naturelles et en temps réel. Actuellement, cette fonctionnalité est exclusive aux abonnés des forfaits Plus, Enterprise, Teams et Edu.
Ce changement transforme la façon dont les utilisateurs interagissent avec ChatGPT, offrant une alternative à la saisie de texte traditionnelle et améliorant l'interactivité du chatbot. Les utilisateurs peuvent désormais cliquer sur l'icône vocale adjacente à la barre de saisie, ce qui active un orbe bleu clignotant, indiquant qu'il est prêt pour la communication vocale. Avec cela, OpenAI vise à servir les utilisateurs qui préfèrent la communication verbale, en rendant les interactions plus personnelles et attrayantes.
Auparavant, le mode vocal avancé n'était accessible que sur les appareils mobiles pour les abonnés. En septembre dernier, OpenAI a lancé la fonctionnalité pour les utilisateurs iOS et Android. Aujourd’hui, la fonctionnalité s’étend au Web, offrant à un public plus large la possibilité d’utiliser la communication vocale directement depuis son navigateur. Cette expansion fait partie de la stratégie plus large d'OpenAI visant à démocratiser l'accès à ses outils d'IA, en garantissant que ces technologies ne se limitent pas aux appareils mobiles, mais soient également disponibles sur un ordinateur de bureau pour un plus grand confort d'utilisation.
Pour démarrer une conversation vocale, les utilisateurs peuvent sélectionner l'icône vocale en bas à droite de la fenêtre ChatGPT, accordant ainsi à leur navigateur l'autorisation d'accéder au microphone de l'ordinateur. Une fois activé, les utilisateurs verront un écran avec un orbe bleu au centre et un repère visuel indiquant que le chatbot est prêt à écouter.
Les nouvelles fonctionnalités vocales sont basées sur le Modèle GPT-4o d'OpenAI, connu pour ses capacités avancées de traitement audio. Cela permet à ChatGPT de comprendre les signaux non verbaux tels que le débit de parole et le ton émotionnel, ce qui donne lieu à des interactions plus nuancées et réalistes. En plus d'interpréter les émotions et le rythme de parole de l'utilisateur, l'IA peut également répondre en temps réel, notamment avec des inflexions émotionnelles, rendant la conversation plus naturelle.
OpenAI propose neuf voix de sortie différentes parmi lesquelles les utilisateurs peuvent choisir, chacune avec son propre ton et sa propre personnalité. Ces options incluent des voix comme « Arbour », décrite comme « insouciante et polyvalente », et « Ember », connue pour être « confiante et optimiste ». Inspirées de thèmes naturels, ces options visent à rendre les conversations IA confortables et familières, en ajoutant une touche personnelle aux interactions.
Selon Kevin Weil, responsable produit chez OpenAI, le mode vocal devrait atteindre les utilisateurs du niveau gratuit dans les semaines à venir. Cependant, les abonnés aux forfaits Plus et Team auront une limite quotidienne d’utilisation du mode vocal avancé. OpenAI avertira les utilisateurs lorsqu'il ne leur restera que 15 minutes pour interagir vocalement. Les utilisateurs du niveau gratuit auront également la possibilité mensuelle d’essayer la fonctionnalité, encourageant ainsi une expérience plus inclusive.
Cette expansion coïncide avec l'engagement d'OpenAI à améliorer l'expérience utilisateur en intégrant des moyens plus intuitifs permettant aux utilisateurs de communiquer avec l'IA. Cela est également considéré comme faisant partie d’une stratégie plus large visant à améliorer l’engagement et à étendre les applications de l’IA dans différents domaines, du service client à l’utilisation occasionnelle.
Au milieu de l’enthousiasme suscité par le déploiement du Web, une voix reste visiblement absente. La voix controversée de "Sky", qui a suscité des critiques pour sa ressemblance étrange avec la voix de Scarlett Johansson, reste portée disparue. La voix a été supprimée en mai 2024 après que Johansson a intenté une action en justice contre OpenAI, alléguant une utilisation non autorisée de son image. OpenAI a rapidement supprimé la voix et a publié une déclaration précisant que la ressemblance avec la star hollywoodienne n'était pas intentionnelle, malgré le fait que des tweets internes faisaient référence au film "Her", dans lequel Johansson joue la voix d'un assistant d'intelligence artificielle. La controverse a mis en lumière les problèmes éthiques soulevés par la création de modèles vocaux, incitant OpenAI à adopter une approche plus prudente.
En introduisant des interactions vocales sur le Web, OpenAI franchit une nouvelle étape vers la création d'une communication plus immersive et humaine avec l'IA. Il devrait également augmenter considérablement l’engagement des utilisateurs en s’adressant aux personnes qui trouvent plus facile ou plus naturel de parler que d’écrire. Cela pourrait étendre les applications de ChatGPT dans différents secteurs, tels que l'éducation, le service client et la création de contenu.
Kevin Weil a également noté qu'OpenAI a l'intention de rendre cette fonctionnalité bientôt disponible aux utilisateurs gratuits, afin de garantir que chacun ait la possibilité de découvrir les capacités avancées de l'IA vocale. Cela correspond à l'objectif plus large d'OpenAI de rendre les outils d'IA avancés accessibles au plus grand nombre d'utilisateurs possible, comblant ainsi le fossé entre les expériences gratuites et payantes.
À mesure que l’IA continue d’évoluer, l’intégration de modes de communication naturels et interactifs tels que la voix est cruciale pour rendre ces technologies plus accessibles et plus pratiques pour un usage quotidien. Il mode vocal avancé sur le Web représente un pas significatif dans cette direction, car il encourage des interactions plus riches et plus humaines entre les utilisateurs et l’IA.