OpenAI anuncia el modelo de IA GPT-4o con capacidades multimodales ampliadas

Con el lanzamiento oficial del modelo GPT-4o en San Francisco, OpenAI contribuye a la tecnología de inteligencia artificial. El nuevo modelo, donde «o» significa «omni», puede gestionar cualquier combinación de entradas y salidas a través de estas modalidades, ya que combina capacidades de procesamiento de texto, audio y visual bajo una misma estructura.

En tareas de texto y código, el rendimiento de GPT-4o es similar al de su predecesor, GPT-4 Turbo, pero es notablemente mejor cuando maneja idiomas distintos del inglés y funciones multimodales como audio y visión. El nuevo modelo destaca por tener un tiempo de respuesta de hasta 232 milisegundos a entradas de audio, que es notablemente similar a la rapidez con la que reaccionan las personas en situaciones del mundo real.

GPT-4o supone una mejora significativa respecto a GPT-4 Turbo en términos de coste y eficiencia. Es un 50% más barato, dos veces más rápido y tiene límites de mensajes cinco veces mayores. Esto aumenta su utilidad como herramienta tanto para desarrolladores como para usuarios finales.

OpenAI ha destacado las amplias funciones de seguridad integradas en GPT-4o, destinadas a reducir los riesgos relacionados con su uso. Estas pruebas exhaustivas buscan nuevas capacidades; el modelo se ha sometido a exámenes exhaustivos, incluido el red teaming externo por parte de más de setenta expertos en varios dominios. El objetivo de estas pruebas exhaustivas es garantizar que las numerosas funciones de GPT-4o sean seguras para el uso público.

Las funciones de texto e imagen de GPT-4o se incluyen ahora en ChatGPT de OpenAI, accesible para usuarios Plus y gratuitos. En las próximas semanas, ChatGPT Plus lanzará una versión alfa de un nuevo modo de voz que incorpora GPT-4o. Además, GPT-4o está actualmente disponible para desarrolladores a través de la API como modelo de texto y visión. Pronto se añadirá soporte para funciones de audio y vídeo para socios de confianza.