OpenAI lanzará el «Modo de voz avanzado» en ChatGPT Plus el 24 de septiembre de 2024. En mayo, justo antes de la keynote de Google I/O 2024, OpenAI acaparó la atención con un evento sorpresa para los medios. En él, presentaron las innovadoras funcionalidades multimodales de ChatGPT, que le permiten interpretar y responder al contenido de fotos, vídeos y pantallas de ordenador.
Lo más destacado fue la introducción del modo de voz avanzado, una función que elevó las capacidades conversacionales de ChatGPT. Este nuevo modo permitía interacciones más humanas, en las que los usuarios podían interponer nueva información sin interrumpir el flujo de la conversación. Además, introducía matices emocionales y variaciones tonales en las respuestas de ChatGPT, reflejando la expresión humana.
Un día después de las revelaciones de OpenAI, Google presentó capacidades similares en su IA Gemini, durante la keynote de I/O. Sin embargo, ninguna de las dos empresas estaba preparada para desplegar ampliamente estas funciones avanzadas en ese momento. Este evento supuso un importante anuncio por parte de OpenAI sobre sus avances en el modo de voz.
Inicialmente previsto para junio, el despliegue del modo de voz avanzado se pospuso a julio para garantizar que la función cumplía todas las normas de seguridad y ofrecía respuestas fiables en tiempo real. El 13 de agosto de 2024, OpenAI reveló que el chatbot había sido sometido a pruebas exhaustivas con más de 100 probadores en 29 regiones y en 45 idiomas, con el objetivo de identificar y resolver cualquier problema potencial.
Este desarrollo se produjo tras el anuncio de OpenAI de su nuevo motor de búsqueda basado en IA, posicionado como potencial rival del dominio de Google en el mercado de las búsquedas en línea.
A finales de julio, OpenAI lanzó el modo de voz avanzado, inicialmente disponible para un grupo selecto de usuarios de ChatGPT Plus. La compañía anunció planes para ampliar el acceso a todos los usuarios Plus durante el otoño, aunque no se facilitó una fecha de lanzamiento concreta. Recientes filtraciones en Reddit, descubiertas en la plataforma X, sugieren que la función de voz podría estar disponible para un público más amplio el 24 de septiembre de 2024. Se prevé que el despliegue a todos los usuarios Plus podría comenzar a partir de esa fecha.
OpenAI presentó GPT-4o en su evento Spring Update de este año, impresionando al público con sus amplias capacidades «omni» que abarcan texto, visión y audio. Las demostraciones de las diversas funcionalidades del modelo, que incluyen traductor en tiempo real, asistente de codificación, tutor de IA, compañero amistoso, poeta y cantante, cautivaron rápidamente la atención. A pesar de la expectación suscitada, no se lanzó el esperado Modo de Voz Avanzado.
Más tarde, tras presentar o1, surgió la pregunta de cuándo estarían disponibles las funciones de voz. En respuesta, Sam Altman declaró: «¿Qué tal un par de semanas de agradecimiento por la inteligencia mágica en el cielo, y luego podréis tener más juguetes pronto?», su respuesta teñida de sarcasmo.
OpenAI, en su publicación sobre X, declaró: «Por ahora, el acceso al modo de voz avanzada se está desplegando en una alfa limitada a un grupo selecto de usuarios. Aunque ser usuario Plus desde hace tiempo y haber sido seleccionado para SearchGPT son indicadores de tu compromiso activo con nuestra plataforma, el acceso a la alfa del modo Advanced Voice el 24 de septiembre de 2024 dependerá de una serie de factores que incluyen, entre otros, las invitaciones de participación y los criterios específicos establecidos para la fase de pruebas alfa.»