GPT-4o Mini: Cómo funciona, características, casos de uso, API y más

El 18 de julio de 2024, OpenAI lanzó GPT-4o Mini, una versión más accesible y rentable del robusto GPT-4o, dirigida a empresas y desarrolladores que buscan opciones de IA asequibles. Este modelo marca un cambio en el enfoque de la industria de la IA, que pasa de modelos más grandes y caros a otros más pequeños y localizados que se adaptan mejor a las aplicaciones B2B. GPT-4o Mini llena un vacío crucial en la línea de OpenAI, proporcionando potentes capacidades de IA en un paquete más pequeño y económico, adecuado para la integración a través de aplicaciones y sitios web.

¿Qué es GPT-4o mini?

GPT-4o Mini es una nueva versión reducida de OpenAI que combina asequibilidad y alto rendimiento. Ofrece una alternativa económica y compacta a los modelos de mayor tamaño, lo que hace que las tecnologías avanzadas de IA sean más accesibles a un público más amplio sin comprometer sus capacidades.

GPT-4o Mini presenta varias características notables, como soporte multimodal, una amplia ventana contextual, un tokenizador avanzado y un rendimiento excepcional en entornos académicos y tareas multimodales. También destaca en razonamiento y codificación, lo que aumenta su utilidad en diversas aplicaciones.

En comparación con la media, GPT-4o mini es de mayor calidad, con una puntuación de 0,82 en MMLU y un índice de calidad de 88 en todas las evaluaciones. Este modelo es más barato, más rápido y tiene una latencia menor (tarda 0,56 s en recibir el primer token).

Modelo pequeño con gran inteligencia y rendimiento

Al igual que el GPT-4o, el GPT-4o mini sobresale en varias pruebas académicas. Ha superado al modelo GPT-3.5 Turbo y ha mostrado un rendimiento sobresaliente en inteligencia textual y razonamiento multimodal. Los desarrolladores también pueden sacar el máximo partido de este modelo creando aplicaciones que obtengan datos o realicen acciones con sistemas externos. En comparación con el modelo GPT-3.5 Turbo, este modelo también ha mejorado el rendimiento en contextos largos.

  • MMLU: MMLU es un benchmark de comprensión que evalúa las capacidades de los modelos de lenguaje. Consta de 16.000 preguntas de 57 asignaturas académicas (filosofía, matemáticas, derecho, medicina y otras). En esta prueba, GPT-4o mini obtiene una puntuación del 82,0%, seguido de Gemini Flash (77,9%), Claude Haiku (73,8%) y GPT-4o (88,7%). Esto demuestra que GPT-4o mini es mejor que otros modelos en tareas de razonamiento que incluyen tanto tareas de texto como de visión.
  • GPQA: abreviatura de Graduate-level Google Proof Q&A, es una prueba comparativa que evalúa las capacidades de los LLM y los mecanismos de supervisión escalables. Consta de 448 preguntas de tipo test, escritas por expertos en física, química y biología. En este benchmark, GP-4o obtiene una puntuación del 53,6%, GPT-4o mini del 40,2% seguido de otros modelos de IA. Gemini Flash, Claude Haiku y GPT-3.5 Turbo obtuvieron menos puntuación que GPT-4o mini.
  • DROP: abreviatura de Discrete Reasoning Over Paragraphs (razonamiento discreto sobre párrafos) evalúa conjuntos de datos formados por párrafos en inglés. A continuación, se plantean preguntas que requieren una serie de pasos de razonamiento para responder a cuestiones o comparaciones matemáticas. En esta prueba, GPT-4o mini tiene una precisión del 79,7%, seguido de Gemini Flash & Claude Haiku (78,4%), GPT-3.5 Turbo (70,2%) y GPT-4o (83,4%).
  • MGSM: Multilingual Grade School Math es una referencia de problemas matemáticos de primaria. GPT-4o mini obtiene una puntuación media del 87,0% en este punto de referencia. Mientras que GPT-4o cruza el 90,5%, lo que muestra una buena media para el modelo mini. Los otros modelos de IA, como Gemini Flash y Claude Haiku, obtienen una puntuación media del 75%, y GPT-3.5 Turbo obtiene la puntuación media más baja, del 56,3%.
  • MATH: Este benchmark evalúa la capacidad matemática de un LLM, consistente en 20 conjuntos de datos de evaluación en varios campos matemáticos con 30.000 problemas matemáticos. Evalúa la capacidad de resolución de problemas matemáticos de los LLM incluyendo aritmética, competencias de primaria y secundaria, y ramas matemáticas avanzadas. GPT-4o mini obtiene una puntuación del 70,2%, mientras que GPT-4o alcanza una media del 76,6%, lo que demuestra el buen rendimiento del modelo en esta prueba de referencia.

GPT-4o Mini Precio y disponibilidad

GPT-4o mini es un modelo rentable, hecho para ser accesible a una amplia gama de usuarios. Los tokens de entrada tienen un precio de 15 céntimos (0,15 $)/1M de tokens y los de salida de 60 céntimos (0,60 $)/1M de tokens.

gpt-4o-mini-precios-comparados

En comparación con los modelos anteriores, la GPT-4o mini tiene una estructura de precios asequible. Este modelo es un 60% más barato que el modelo GPT-3.5 Turbo. Para los demás modelos de frontera, GPT-4o mini ofrece un ahorro de un orden de magnitud en comparación con otros modelos de IA de gama alta.

En ChatGPT, los usuarios Free, Plus y Team podrán acceder a GPT-4o mini, en lugar de GPT-3.5. Los usuarios Enterprise también tendrán acceso a partir de la semana que viene.

Casos de uso de GPT-4o mini

El GPT-4o Mini, con su pequeño tamaño, bajo coste y sólido rendimiento, es una solución ideal para una gran variedad de aplicaciones, especialmente en entornos donde los recursos son limitados. He aquí un desglose de cómo puede utilizarse GPT-4o Mini en diferentes escenarios:

  • IA en el dispositivo: El tamaño compacto de GPT-4o Mini permite integrarla directamente en dispositivos locales como ordenadores portátiles, teléfonos inteligentes y servidores periféricos. Este despliegue en el dispositivo ayuda a reducir la latencia, lo que acelera el tiempo de procesamiento, y mejora la privacidad, ya que no es necesario enviar los datos a un servidor remoto. Las aplicaciones incluyen apps de aprendizaje de idiomas, asistentes personales y herramientas de traducción offline, todas ellas beneficiándose de las capacidades de procesamiento local.
  • Creación rápida de prototipos: GPT-4o Mini permite una iteración más rápida a un coste menor, lo que facilita la experimentación y el perfeccionamiento de los modelos antes de ampliarlos. Esto es particularmente útil para desarrolladores e investigadores que necesitan probar nuevas ideas de chatbot, desarrollar prototipos impulsados por IA y experimentar de forma rentable con diferentes funciones de IA.
  • Aplicaciones en tiempo real: Gracias a su capacidad de respuesta rápida, GPT-4o Mini mejora las experiencias interactivas en varias plataformas. Esto la hace muy eficaz para chatbots, asistentes virtuales, aplicaciones de traducción de idiomas en tiempo real, narración interactiva en juegos y entornos de realidad virtual en los que la respuesta inmediata es crucial.
  • Generación de contenidos: GPT-4o Mini es un escritor veloz que crea buenos textos, incluyendo entradas de blog, artículos y contenido para medios sociales. También puede manejar tareas de escritura mucho más complejas como un guión para una película, un poema, e incluso un libro entero. GPT-4o mini ahorra toneladas de tiempo y esfuerzo al hacerse cargo de las tareas de escritura.
  • Codificación y despliegue: GPT-4o Mini está cambiando la forma de trabajar de los desarrolladores mediante la generación de fragmentos de código en múltiples lenguajes de programación, ahorrando significativamente tiempo y esfuerzo. No sólo ayuda en la creación de código para funciones específicas, sino que también asiste en la depuración identificando errores y sugiriendo soluciones. Esta combinación de funciones, junto con su rentabilidad, convierten a GPT-4o Mini en una herramienta inestimable que acelera los ciclos de desarrollo y aumenta la productividad.

En general, la versatilidad y eficiencia del GPT-4o Mini lo convierten en un potente activo para cualquiera que desee integrar la IA en sus proyectos o servicios, mejorando las capacidades a la vez que se gestionan los costes y se mantiene la privacidad del usuario.

GPT-4o vs GPT-4o mini

OpenAI presentó el modelo insignia GPT-4o, que ofrece un rendimiento mejorado en texto, visión y audio. También ofrece razonamiento en tiempo real, capacidad para imitar interacciones similares a las humanas y mayor velocidad. Sin embargo, estas prestaciones están disponibles a un precio más elevado que el GPT-4o mini. GPT-4 dispone de numerosos datos de entrenamiento que abarcan una amplia gama de temas. El GPT-4o mini tiene un conjunto de datos menos extenso, pero diverso. En cuanto al tamaño del modelo, GPT-4 tiene más de 200.000 millones de parámetros, mientras que GPT-4o mini admite una ventana de contexto de 128.000 tokens. El alto rendimiento de GPT-4o le permite manejar tareas complejas, con una comprensión profunda y respuestas detalladas a la entrada proporcionada. Por el contrario, el GPT-4o mini está optimizado para la eficiencia y asume aplicaciones ligeras a la vez que proporciona respuestas rápidas.

Debido a su pequeño tamaño, el GPT-4o mini es más rápido, mientras que el GPT-4o tiene una velocidad moderada. GPT-4o tiene un alto requerimiento de recursos con más memoria de potencia computacional, y GPT-4o mini tiene menos memoria de potencia computacional. GPT-4o es ideal para servidores potentes para entornos de nube, mientras que GPT-4o mini es adecuado para sistemas móviles e integrados. GPT-4o mini es razonablemente preciso pero puede carecer de tareas complejas en profundidad, mientras que GPT-4o sobresale en precisión con contextos matizados. GPT-4o sólo está disponible en planes de precios premium, mientras que GPT-4o mini es más accesible y está disponible en planes fermium.

¿Cómo acceder a GPT-4o mini?

Se puede acceder a GPT-4o mini a través de la API OpenAI. Incluye opciones como API de Asistentes, API de finalización de chat y API de Lote. Los siguientes son los pasos para utilizar GPT-4o mini con la API OpenAI.

  • Autentícate utilizando la clave API. Sustituye tu_api_key_here por la clave real.
  • Una vez configurado, puede generar texto con GPT-4o mini.
gpt-4o-mini-API

Se puede acceder a la API de OpenAI a través de varios puntos finales, incluyendo la API de Asistentes, la API de Finalizaciones de Chat y la API de Lote. La API de Asistentes soporta herramientas como el Intérprete de Código, la Búsqueda de Archivos y la Llamada a Funciones. La API de finalización de chat admite la introducción de texto e imágenes y puede generar contenido de texto. Los desarrolladores que busquen un alto nivel de inteligencia pueden utilizar GPT-4o, y los que busquen rapidez y bajo coste pueden optar por GPT-4o mini. La API de lotes es rentable, con límites de velocidad más altos y tiempos de finalización más rápidos en comparación con los terminales estándar.

Protocolos de seguridad integrados

OpenAI siempre ha integrado y reforzado la seguridad en cada paso del proceso de desarrollo. En el preentrenamiento de los modelos, se descarta la información que OpenAI no quiere que sus modelos aprendan de la salida. En este proceso se filtran contenidos para adultos, discursos de odio, spam o sitios que agregan información personal. En el post-entrenamiento, OpenAI pretende mejorar la precisión y fiabilidad de los modelos. Utilizan la técnica de aprendizaje por refuerzo con retroalimentación humana (RLHF), en la que el comportamiento del modelo se alinea con las políticas de OpenAI.

GPT-4o mini tiene las mismas mitigaciones de seguridad que GPT-4o. OpenAI ha evaluado cuidadosamente esas mitigaciones de seguridad utilizando evaluaciones automatizadas y humanas de acuerdo con el marco de preparación y en línea con los compromisos voluntarios de OpenAI. En el marco de preparación, OpenAI ejecuta evaluaciones con tarjetas de puntuación actualizadas para todos sus modelos de frontera. Se definen umbrales de riesgo que activan la línea de base de las medidas de seguridad. Los umbrales de los niveles de riesgo se clasifican en ciberseguridad, CBRN (amenazas químicas, biológicas, radiológicas y nucleares), persuasión y autonomía del modelo. Los modelos con una puntuación post-mitigación «Media» o inferior pueden desplegarse. Asimismo, los modelos con una puntuación post-mitigación de «alta» o inferior pueden desplegarse más.

GPT-4o fue probado por 70 expertos externos en psicología social y desinformación para identificar posibles riesgos. OpenAI tiene previsto abordar y compartir los detalles de los riesgos potenciales en la próxima tarjeta del sistema GPT-4o y la tarjeta de puntuación de preparación. Tanto la seguridad de GPT-4o como de GPT-4o mini han mejorado gracias a las evaluaciones de los expertos.

Método de jerarquía de instrucciones

El equipo de OpenAI ha utilizado nuevas técnicas para mejorar la seguridad de GPT-4o mini. Este modelo, en la API, es el primero al que se aplica el método de jerarquía de instrucciones. Este método ayuda al modelo a resistir jailbreaks, inyecciones de prompt y extracciones de prompt del sistema. Este método ayuda a que las respuestas del modelo sean fiables, al tiempo que lo hace seguro para su uso en aplicaciones a escala.

El método de jerarquía de instrucciones define cómo deben comportarse los modelos cuando entran en conflicto instrucciones de distinta prioridad. Se propone un método de generación de datos para demostrar el comportamiento de seguimiento jerárquico de instrucciones, en el que los LLM ignoran selectivamente las instrucciones de baja prioridad.

Conclusión

El GPT-4o Mini es un modelo de IA sobresaliente, que ofrece un impresionante equilibrio entre rendimiento y rentabilidad. Derivado del GPT-4o de mayor tamaño, conserva una ventana contextual sustancial y capacidades multimodales, mejoradas con sólidas funciones de seguridad, lo que lo hace versátil y accesible para diversas aplicaciones. Ante la creciente necesidad de soluciones de IA eficientes y asequibles, la GPT-4o Mini está preparada para contribuir significativamente a la democratización de la tecnología de IA.

Preguntas más frecuentes

¿Puede GPT-4o mini procesar imágenes, vídeo y audio?

Actualmente, GPT-4o Mini admite entradas de texto e imágenes, y existen planes para ampliar sus capacidades e incluir entradas de vídeo y audio en el futuro.

¿Cómo se compara el rendimiento de GPT-4o mini con el de otros modelos?

GPT-4o Mini supera a varios modelos comparables, como Llama 3 (8B), Claude 3 Haiku y GPT-3.5 Turbo, tanto en calidad como en velocidad de procesamiento. Aunque Gemini 1.5 Flash puede ser ligeramente más rápido en velocidad de salida, GPT-4o Mini es superior en calidad general.

¿Qué hace que GPT 4o mini sea rentable?

GPT-4o Mini reduce la necesidad de recursos informáticos, ofreciendo una solución rentable sin comprometer el rendimiento.