GPT-4V(ision) revoluciona el panorama de la inteligencia artificial visual

En plena efervescencia de la IA, OpenAI lanzó G PT-4, que contaba con extraordinarias capacidades de IA generativa. En septiembre de 2023, anunció una capacidad multimodal para ChatGPT que podía oír, hablar e indicar una nueva imagen. El nuevo modelo de visión GPT-4 permite al ChatGPT «ver». 

Un usuario puede cargar la imagen como entrada y entablar una conversación con el modelo. Las preguntas e instrucciones se formulan en forma de «prompt», que ordena al modelo realizar tareas en función de la información facilitada. Este modelo es una mejora del GPT-4, que ofrece funciones de interacción textual con análisis visual. 

GPT-4 Capacidades de visión

La comprensión de imágenes de ChatGPT se basa en una combinación de los modelos multimodales GPT-3.5 y GPT-4. Recientemente, GPT-4 se ha hecho accesible al público tras el lanzamiento de GPT-4V(isión) equipado con comprensión de imágenes. Sin embargo, GPT-4V se ha sometido a rigurosas pruebas en múltiples aplicaciones. Sus resultados han sido notables y constantes. 

Detección de objetos

GPT-4 Vision proporciona información precisa sobre los objetos como mostrar el análisis de la imagen y el recuento de objetos. No sólo identifica objetos en una imagen pronta pero también identifica el problema en la detección también. 

Respuesta visual a preguntas

El GPT-4V(ision) funciona bien en la gestión de preguntas de seguimiento sobre la imagen. Este modelo no solo ofrece sugerencias o información sobre una imagen, sino que también proporciona información valiosa al mejorar la experiencia del usuario. 

Matemáticas OCR

El OCR de matemáticas se refiere específicamente a las preguntas de matemáticas. A menudo se considera una disciplina propia. La razón es que la sintaxis del modelo OCR se identifica con una amplia gama de símbolos.

 

Captcha

OpenAI estudió Captcha es su investigación y escribió sobre ello en su tarjeta de sistema. GPT-4 fue capaz de detectar un bus de las cajas.

Tratamiento de condiciones múltiples

El GPT-4 V(ision) es capaz de leer e interpretar varias instrucciones simultáneamente. Cuando se le presenta una imagen que contiene varias instrucciones, GPT-4 Vision proporciona una respuesta coherente. Muestra versatilidad en el manejo de consultas complejas. 

Análisis de datos

Este modelo ofrece observaciones perspicaces cuando se trata del análisis de datos. Cuando se le proporciona un gráfico, el GPT-4 ofrece interpretaciones que mejoran significativamente la comprensión y el análisis de los datos. 

Descifrar el texto

GPT-4 Vision es capaz de descifrar notas manuscritas difíciles de leer incluso para los humanos. Sin embargo, mantiene un alto nivel de precisión al proporcionar la salida.  

Capacidades inigualables de GPT-4V(ision): Supera a los LLM SOTA

OpenAI está generalizando la capacidad de detección visual. Sin embargo, la incorporación de modalidades adicionales (entrada de imágenes) a los modelos de lenguaje extensos (LLM) es una frontera clave en la investigación y el desarrollo de la IA. Los LLM multimodales ofrecen la posibilidad de ampliar el impacto de los sistemas basados únicamente en el lenguaje con nuevas interfaces. 

La comparación entre GPT-3.5 y GPT-4 puede parecer sutil, pero el contraste se hace evidente cuando se trata de manejar instrucciones intrincadas. GPT-4 Vision cuenta con capacidades revolucionarias para manejar instrucciones complejas. Destaca por sus resultados fiables y creativos.

Desde la asistencia hasta la moderación de contenidos, pasando por las ventas y la programación, GPT-4Vision ha tenido un impacto significativo. Además, desempeña un papel fundamental a la hora de ayudar a los evaluadores humanos a valorar los resultados de la IA. Esta será, a su vez, una iniciativa de la segunda fase de la estrategia de alineación de OpenAI. 

Los desarrolladores y usuarios tienen la posibilidad de personalizar el estilo de la IA según sus preferencias. La utilización de mensajes del sistema permite a los usuarios de la API personalizar sus respuestas de IA dentro de unos límites predefinidos. 

Limitaciones 

Según la investigación de OpenAI, la tarjeta del sistema GPT-4V identifica varias limitaciones del modelo. 

  • Error de fiabilidad: GPT- 4V puede producir un contexto inexacto y preciso en la imagen que evalúa. También puede pasar por alto el texto o el carácter de una imagen. El modelo «alucina» devolviendo información inexacta. Se trata de un riesgo que conlleva el uso de modelos lingüísticos para responder a preguntas. 
  • Dependencia excesiva: Dado que GPT-4Vision es tan sencillo de usar y eficaz, las personas pueden volverse excesivamente dependientes de él, lo que podría reducir el índice de participación en el pensamiento crítico y las implicaciones prácticas. 
  • No puede resolver problemas complejos: GPT-4Visión se enfrenta a un reto para resolver el problema complejo.
  • Seguridad de los datos: Cuando se cargan fotografías para su análisis, pueden surgir problemas relacionados con la seguridad de los datos y la privacidad, especialmente cuando se trata de imágenes privadas o sensibles.

¿Cómo acceder a GPT- 4V?

Con una cuenta ChatGPT Plus de 20 $ al mes en chat.openai.com, puedes subir una imagen a la aplicación ChatGPT en iOS o Android y hacerle una pregunta. OpenAI lanza la función de introducción de texto de GPT-4 a través de ChatGPT. Actualmente está disponible para los usuarios de ChatGPT Plus. Hay una lista de espera para la API de GPT-4. Aún no se ha anunciado la disponibilidad pública de la función de introducción de imágenes. 

Conclusión

No cabe duda de que nos encontramos en el inicio de una nueva era de la inteligencia artificial (IA) al llegar al final de nuestra exploración del universo GPT-4 Vision (GPT-4V). Esta combinación texto-visual es realmente innovadora, pero la utilidad de cualquier herramienta depende de cómo la utilicemos. Así pues, mientras te adentras en este fascinante futuro, ten la mente abierta y recuerda utilizar adecuadamente la potencia de GPT-4V.

Preguntas frecuentes (FAQs)

¿Está disponible GPT-4 Vision?

Los desarrolladores que tengan acceso a la API pueden pasar «gpt-4-1106-preview» como nombre del modelo en la API de OpenAI. Para GPT-4 Turbo con visión, puede pasar «gpt-4-vision-preview» como nombre del modelo. 

¿Para qué sirve GPT 4V?

Un usuario puede entablar una conversación con el modelo mediante la introducción de imágenes a través de GPT-4V. Puede hacer preguntas o dar instrucciones en forma de indicación. El modelo es capaz de realizar tareas basadas en la entrada proporcionada en forma de imagen. 

¿Qué es una ficha para GPT-4?

La tarificación del modelo de OpenAI se basa en tokens. Un token para GPT-4 equivale aproximadamente a tres cuartos de una palabra inglesa. Por cada 75 palabras, un usuario ocupará tokens equivalentes a 100. 

¿Cómo consigo GPT-4V?

OpenAI ha anunciado que GPT-4V saldrá a finales de septiembre. Estará disponible tanto en la interfaz OpenAI ChatGPT como en la aplicación iOs/Android. Sin embargo, es imprescindible estar suscrito a GPT-4 para utilizar la herramienta.