Último lanzamiento de OpenAI: Todo lo que necesitas saber sobre GPT-4

A principios de marzo de 2023, OpenAI lanzó el mayor modelo multimodal GPT-4. Este modelo lingüístico de mayor tamaño acepta tanto imágenes como texto y genera resultados. Es capaz de mostrar un rendimiento de nivel humano en varias pruebas de referencia, tanto profesionales como académicas.

Generative Pre-Trained Transformers (GPT) genera texto similar al humano utilizando un modelo de aprendizaje profundo. Existen infinitas aplicaciones que van desde generar conversaciones & y códigos, responder preguntas, resumir texto o incluso traducir a otros idiomas. Los modelos GPT pueden ajustarse con datos específicos para obtener resultados aún mejores.

Novedades de GPT-4

En los últimos dos años, OpenAI ha reconstruido toda la pila de aprendizaje profundo y ha codiseñado un superordenador con Azure. Se solucionaron los errores y se mejoraron los fundamentos teóricos cuando se realizó la prueba GPT-3.5. Como resultado, el GPT-4 se convirtió en un modelo más estable y más grande. GPT-4 es más fiable, creativo y capaz de manejar instrucciones mucho más matizadas que GPT-3.5.

GPT-4 tiene una gran capacidad para seguir las intenciones del usuario a la vez que genera resultados veraces. La distinción entre GPT-3.5 y GPT-4 puede ser sutil. Sin embargo, la diferencia sale a relucir cuando la complejidad de la tarea alcanza un umbral suficiente.

Mejoras de rendimiento

GPT-4 es un modelo más improvisado que GPT-3.5 en lo que respecta a la corrección factual de las respuestas. Según el parámetro de rendimiento interno de OpenAI, GPT-4 comete menos errores factuales/de razonamiento. GPT-4 obtiene un 40% más de puntuación que GPT-3.5, lo que la hace más fiable.

OpenAI probó una variedad de puntos de referencia estimulando los exámenes diseñados originalmente para humanos. Se probó con los exámenes más recientes disponibles públicamente. No se impartió formación específica para estos exámenes.

Exámenes estimulados	GPT -4 (percentil estimado)	GPT -3,5 (percentil estimado)
SAT Matemáticas	700/800 (-89º)	590/800 (-70º)
GRE Cuantitativo	163/170 (-80º)	147/170 (-25º)
GRE Verbal	169/170 (-99º)	154/170 (-63º)
GRE Writing	4/6 (-54º)	4/6 (-54º)
Programa de autoevaluación de conocimientos médicos	75%	53%

Entradas visuales

Un usuario puede especificar cualquier tarea de visión o lenguaje utilizando GPT-4. Puede aceptar tanto texto como imágenes. GPT-4 genera salidas de texto (lenguaje natural o código) con entradas consistentes en texto e imágenes intercalados. Presenta capacidades similares con documentos, diagramas, capturas de pantalla y fotografías que con entradas de sólo texto.

OpenAI también evaluó el rendimiento de GPT-4 en una serie de pruebas de visión académicas estándar. Sin embargo, las siguientes cifras no representan el alcance de sus capacidades.

Punto de referencia	GPT -4
TextVQA Puntuación VQA (val)	78,0% 0 disparos
ChartQA precisión relajada (prueba)	78.5%
Diagrama A12 (AI2D) Precisión (prueba)	78,2% 0 disparos
Puntuación DocVQA ANLS (prueba)	88,4% 0-shot (sólo píxeles)

Capacidad de maniobra

Open AI ha dedicado 6 meses a hacer que GPT-4 sea más seguro y esté más alineado. GPT-4 tiene un 82% menos de probabilidades de responder a solicitudes de contenido no permitido.

El GPT clásico se ajustaba a una verbosidad, tono y estilo fijos. Ahora, los usuarios de ChatGPT pueden prescribir el estilo de su IA en el mensaje de «sistema». Los usuarios de la API pueden personalizar su experiencia dentro de unos límites utilizando los mensajes del sistema. Open AI ha afirmado que los límites no son perfectos. Sin embargo, se anima a los usuarios a probarlos.

Seguridad y alineación

Open AI ha incorporado los comentarios humanos para mejorar el comportamiento de GPT-4. Para comprender mejor los riesgos, OpenAI contrató a más de 50 expertos en ciberseguridad, riesgos, seguridad internacional y riesgos de alineación de la IA para someter el modelo a pruebas adversariales.

A medida que más gente lo utilice, OpenAI seguirá mejorando el GPT-4 a una cadencia regular. El sistema de seguridad y supervisión de GPT-4 cuenta con más lecciones aplicadas de modelos anteriores. Entre las funciones avanzadas también se incluye la investigación de seguridad asistida de GPT-4 para la formación, las evaluaciones y la supervisión.

Escalado predecible

OpenAI ha desarrollado una infraestructura y una optimización con un comportamiento predecible a múltiples escalas. Durante las pruebas, OpenAI predijo con exactitud y por adelantado la pérdida final de GPT-4 en la base de código interna. Se utilizó la misma metodología pero con 10.000 veces menos computación.

OpenAI cree que predecir las capacidades futuras del aprendizaje automático es una parte importante de la seguridad. Sin embargo, no se le presta atención en relación con su impacto potencial.

Pruebas de OpenAI

Una «eval» es una tarea utilizada para evaluar la calidad del comportamiento de un sistema. OpenAI Evals es un marco de software que permite crear y ejecutar puntos de referencia para evaluar modelos (GPT-4). Esto ayuda a inspeccionar el rendimiento muestra por muestra.

Los usuarios pueden aplicar Evals para realizar un seguimiento del rendimiento entre versiones de modelos e integraciones de modelos en evolución. Eval es compatible con la aplicación de puntos de referencia existentes. Open AI ha incluido cuadernos e integraciones de subconjuntos de CoQA como ejemplo. OpenAI invita a los usuarios a probar modelos y enviar ejemplos interesantes a Evals.

Conclusión

OpenAI está probando constantemente haciendo de GPT-4 una herramienta valiosa para la gente. Ha potenciado muchas aplicaciones y procesos. Sin embargo, OpenAI cree que aún queda mucho por mejorar. Los esfuerzos colectivos de la comunidad pueden contribuir a mejorar el modelo.

Preguntas frecuentes (FAQs)

¿Cuál es la historia de los modelos GPT?

A partir del BERT de Google en 2017, la revolución de la IA se hizo posible con la invención de los modelos transformadores. Antes, la generación de texto corría a cargo de redes neuronales recursivas (RNN) y redes neuronales de memoria a corto plazo (LSTM).

¿En qué mejora GPT-4 a los modelos anteriores?

GPT-4 puede seguir las intenciones del usuario y generar resultados menos peligrosos. Mejora las capacidades fácticas y de razonamiento. Puede cambiar de comportamiento en función de las peticiones del usuario. Además, GPT-4 utiliza imágenes además de texto.

¿Cómo puedo acceder a GPT-4?

Los usuarios de ChatGPT Plus pueden utilizar la función de entrada de texto de la GPT-4. Sin embargo, aún no se ha anunciado la posibilidad de introducir imágenes.