OpenAI lanza el Modo de voz avanzada para ChatGPT en la web

OpenAI anunció el 19 de noviembre de 2024 la expansión del Modo de Voz Avanzada de ChatGPT a la web, lo que supone un hito importante para su popular chatbot de IA. Inicialmente disponible sólo para usuarios móviles premium, esta última actualización lleva las interacciones basadas en voz directamente a los navegadores web, permitiendo a los suscriptores de pago interactuar con ChatGPT a través de conversaciones de voz naturales y en tiempo real. Actualmente, esta función es exclusiva para los suscriptores de los planes Plus, Enterprise, Teams y Edu.

Este cambio transforma la forma en que los usuarios interactúan con ChatGPT, ofreciendo una alternativa a las entradas de texto tradicionales y mejorando la interactividad del chatbot. Los usuarios ahora pueden hacer clic en el icono de voz adyacente a la barra de entrada, que activa un orbe azul parpadeante, indicando que está listo para la comunicación de voz. Con ello, OpenAI pretende atender a los usuarios que prefieren la comunicación verbal, haciendo que las interacciones sean más personales y atractivas.

Anteriormente, el modo de voz avanzado sólo era accesible en dispositivos móviles para los abonados. El pasado mes de septiembre, OpenAI lanzó la función para usuarios de iOS y Android. Hoy, la funcionalidad se extiende a la web, ofreciendo a un público más amplio la posibilidad de utilizar la comunicación por voz directamente desde su navegador. Esta expansión forma parte de la estrategia más amplia de OpenAI para democratizar el acceso a sus herramientas de IA, garantizando que estas tecnologías no se limiten a los dispositivos móviles, sino que también estén disponibles en un ordenador de sobremesa para mayor comodidad del usuario.

Para iniciar una conversación de voz, los usuarios pueden seleccionar el icono de voz en la parte inferior derecha de la ventana de ChatGPT, concediendo a su navegador permiso para acceder al micrófono del ordenador. Una vez activado, los usuarios verán una pantalla con un orbe azul en el centro y una señal visual que indica que el chatbot está listo para escuchar.

Las nuevas funciones de voz se basan en el modelo GPT-4o de OpenAI, conocido por sus avanzadas capacidades de procesamiento de audio. Esto permite a ChatGPT comprender señales no verbales como la velocidad del habla y el tono emocional, lo que da lugar a interacciones más matizadas y realistas. Además de interpretar las emociones del usuario y su ritmo al hablar, la IA también puede responder en tiempo real, incluso con inflexiones emocionales, haciendo que la conversación resulte más natural.

OpenAI ofrece nueve voces de salida distintas para que los usuarios elijan, cada una con su tono y personalidad. Entre estas opciones hay voces como «Arbor», que se describe como «desenfadada y versátil», y «Ember», conocida por ser «segura y optimista». Estas opciones, inspiradas en temas naturales, pretenden que las conversaciones con IA resulten cómodas y familiares, añadiendo un toque personal a las interacciones.

Según Kevin Weil, jefe de producto de OpenAI, se espera que el modo de voz llegue a los usuarios de la capa gratuita en las próximas semanas. Sin embargo, los suscriptores de los planes Plus y Team tendrán un límite diario de uso del modo de voz avanzado. OpenAI avisará a los usuarios cuando sólo les queden 15 minutos para interactuar por voz. Los usuarios del nivel gratuito también tendrán una oportunidad mensual de probar la función, fomentando una experiencia más inclusiva.

Esta ampliación coincide con el compromiso de OpenAI de mejorar la experiencia del usuario mediante la integración de formas más intuitivas para que las personas se comuniquen con la IA. También se considera parte de una estrategia más amplia para mejorar el compromiso y ampliar las aplicaciones de la IA en diferentes ámbitos, desde la atención al cliente hasta el uso ocasional.

En medio del entusiasmo por el despliegue de la web, hay una voz que sigue notablemente ausente. La controvertida voz «Sky», que suscitó críticas por su inquietante parecido con la voz de Scarlett Johansson, sigue sin aparecer. La voz fue retirada en mayo de 2024 después de que Johansson interpusiera una demanda contra OpenAI, alegando el uso no autorizado de su imagen. OpenAI retiró rápidamente la voz y emitió un comunicado en el que aclaraba que el parecido con la estrella de Hollywood no era intencionado, a pesar de que en los tuits internos se había hecho referencia a la película «Her», en la que Johansson interpreta la voz de una asistente de inteligencia artificial. La polémica puso de manifiesto los problemas éticos que plantea la creación de modelos de voz, lo que llevó a OpenAI a adoptar un enfoque más prudente.

Al introducir en la web interacciones basadas en la voz, OpenAI da un paso más hacia la creación de una comunicación más inmersiva y humana con la IA. También se espera que aumente significativamente la participación de los usuarios al atender a personas a las que les resulta más fácil o natural hablar que escribir. Esto podría ampliar las aplicaciones de ChatGPT en distintos sectores, como la educación, la atención al cliente y la creación de contenidos.

Kevin Weil también ha señalado que OpenAI tiene la intención de poner pronto esta función a disposición de los usuarios de nivel gratuito, para garantizar que todo el mundo tenga la oportunidad de experimentar las capacidades avanzadas de la IA por voz. Esto se alinea con el objetivo más amplio de OpenAI de hacer accesibles las herramientas avanzadas de IA al mayor número posible de usuarios, salvando las distancias entre las experiencias gratuitas y las de pago.

A medida que la IA sigue evolucionando, la integración de modos de comunicación naturales e interactivos como la voz es crucial para hacer estas tecnologías más accesibles y prácticas para el uso cotidiano. El modo de voz avanzado en la web representa un salto significativo en esta dirección, ya que fomenta interacciones más ricas y humanas entre los usuarios y la IA.