DALL E, un modelo de IA generativa de imágenes, se lanzó por primera vez en enero de 2021. Llegó antes que otras plataformas artísticas de IA generativa de texto a imagen de Midjourney y Stability AI. El modelo anterior, DALL E 2, se lanzó en 2022 y se enfrentó a una gran reacción por generar imágenes explícitas fotorrealistas al tiempo que mostraba parcialidad. OpenAI decidió poner una lista de espera para controlar quién podía utilizar la plataforma. Sin embargo, la lista de espera se eliminó y DALL-E 2 se hizo público en septiembre de 2022.
El modelo genera a partir de indicaciones. Un usuario puede obtener imágenes precisas después de instruir a DALL E en Español con frases cortas.
Dato curioso
El nombre «DALL E» surgió de la mezcla de Salvador Dalí (el famoso artista español) y la película de Pixar, WALL E. Desde la concepción de este modelo, ha sufrido varias actualizaciones que comentaremos aquí.
Hemos creado estas imágenes con DALL E. Debido a la política de contenidos y a la cuestión de los derechos de autor, creó imágenes similares y surrealistas para representar tanto a WALL-E desde un mundo futurista como el estilo surrealista de Salvador Dalí.
La evolución de los modelos de OpenAI DALL E
Todas las series de DALL E inteligencia artificial (DALL E, DALL E 2 y DALL E 3) son modelos de texto a imagen que utilizan técnicas de aprendizaje profundo para generar imágenes a partir de lenguaje natural. La primera iteración de DALL-E generó imágenes a partir de text usando GPT-3. Este modelo utilizaba un autoencodificador vibracional discreto (dVAE) que se basaba en investigaciones realizadas por la división DeepMind de Alphabet.
En 2022, se introdujo DALL E 2, que generaba imágenes más realistas a altas resoluciones. El modelo utilizaba el modelo de preentrenamiento Contrast Language-Image (CLIP) que se entrenó con 400 millones de imágenes etiquetadas. Combina conceptos, atributos y estilos para generar imágenes para el usuario. La API de imágenes creó imágenes desde cero a partir de mensajes de texto, editó imágenes preexistentes a partir de un nuevo mensaje y creó también sus variaciones.
OpenAI anunció la última versión de DALL-E 3 en septiembre de 2023, capaz de comprender «muchos más matices y detalles» que sus predecesoras. El modelo sigue instrucciones complejas con mayor precisión y genera imágenes más coherentes.
DALL E 3: Capacidades y características
DALL E 3 es el nuevo salto evolutivo de 2023 que presenta varias mejoras con respecto a las versiones anteriores. Está disponible para los usuarios de ChatGPT Plus con una suscripción mensual de 20$. Sin embargo, los usuarios también pueden acceder a él gratuitamente a través de Bing Chat.
Elimina la Ingeniería Prompt
DALL E 3 redefine la forma de generar imágenes mediante prompts de texto. Los sistemas modernos de conversión de texto en imágenes suelen quedarse cortos al ignorar palabras o descripciones. Esto requiere que los usuarios dominen el arte de la ingeniería de indicaciones.
DALL E 3 es capaz de eliminar las complejidades de la ingeniería de indicaciones ciñéndose al texto proporcionado. Este modelo actúa como un socio creativo que permite a los usuarios dar vida a sus ideas. El usuario puede generar imágenes visualmente asombrosas a partir de frases sencillas o párrafos detallados.
Precisión mejorada
Los modelos DALL E anteriores tenían problemas interpretación de indicaciones de texto complejas y mezclaban conceptos al generar imágenes. La última DALL E 3 está diseñada para comprender el texto con exactitud y precisión, capturando matices y detalles.
DALL-E 3 crea imágenes más nítidas y precisas con realismo, texturas, iluminación y un fondo a elección del usuario. Se ha mejorado la generación de texto y su integración en las imágenes. Al utilizar DALL E 3, se puede configurar la «calidad: HD» para mejorar los detalles.
Consideraciones éticas
Para abordar la consideración ética, OpenAI ha realizado el modelo DALL E 3 adhiriéndose a la seguridad y absteniéndose de cualquier sesgo. Este modelo incorpora medidas que restringen la generación de contenidos violentos, para adultos o que inciten al odio. Las mitigaciones evitan generar imágenes de personajes públicos por su nombre, reduciendo así el riesgo de desinformación.
Pedimos a DALL E que creara una imagen de Salvador Dalí en la que hiciera hincapié en sus estilos artísticos en lugar de en la imagen real del artista.
La OpenAI también permitirá a los artistas excluir sus obras para evitar demandas en el futuro. Los creadores tendrán la libertad de enviar imágenes bajo sus derechos y solicitar su retirada en un formulario en su página web. Es probable que la futura versión de DALL E bloquee resultados similares a las imágenes de cualquier artista.
Transparencia
OpenAI investiga continuamente formas de ayudar a los usuarios a distinguir las imágenes generadas por IA del arte creado por humanos. Para el experimento, una herramienta denominada clasificador de procedencia determina si una imagen ha sido generada por DALL E 3.
Tamaños y estilos de DALL E 3
DALL-E 3 crea imágenes de tamaños 1024×1024, 1024×1792 y 1792×1024 píxeles. Estos tamaños pueden tener efectos significativos tanto en el estilo como en el contexto de la imagen generada. Por ejemplo, un usuario puede generar imágenes verticales para marketing o contenido social, mientras que horizontales para paisajes o diseños digitales.
Este modelo se introdujo con dos nuevos estilos: natural y vívido. El estilo natural es similar al estilo DALL E 2 en su realismo «más suave». El estilo vívido genera imágenes hiperrealistas y cinematográficas. Todas las generaciones de DALLE en ChatGPT se generan en estilo vívido.
El estilo natural es útil en los casos en que DALL E 3 exagera un tema que se supone sencillo o realista. Puede utilizarse para generar logotipos o fotos de archivo.
¿Qué se puede hacer con DALL-E 3?
Lo más importante que un usuario puede hacer es crear cualquier tipo de imagen a partir de cero y el resto de infinitas posibilidades. Un usuario puede crear obras de arte, y esculturas en 3D y utilizar las características de otros pintores famosos. También se puede utilizar para el diseño de productos, interiores o incluso logotipos. El modelo DALL-E 3 ofrece una gama de casos de uso para ayudar a un usuario o a una organización.
Diseño de logotipos
Las empresas de cualquier escala pueden utilizar DALL E 3 para crear logotipos impresionantes y únicos que representen su marca. DALL E 3 elimina la necesidad de contar con un diseñador cualificado al generar logotipos directamente a partir de descripciones textuales. No se trata de una solución única, sino de una alternativa eficaz y asequible.
El usuario puede introducir los detalles textuales del logotipo deseado y DALL E 3 mostrará varios diseños. Las empresas pueden iterar rápidamente entre las ideas que mejor encajen con la esencia de su marca.
De este modo, las empresas ahorran tiempo y recursos a la vez que disponen de una gran variedad de diseños. Pueden beneficiarse de rápidos ajustes, como variaciones estacionales del logotipo en función de los acontecimientos.
Cartel publicitario
Las empresas y los particulares pueden utilizar DALL E 3 para crear carteles atractivos que muestren sus productos y servicios. El usuario puede introducir en DALL E 3 distintos detalles (paletas de colores, fuentes, motivos, eslóganes) para generar carteles adaptados a diversos medios publicitarios.
Una empresa puede tener una representación de marca unificada en todas las plataformas. DALL E 3 reduce los costes del proceso de diseño tradicional, reforzando el reconocimiento de la marca y la fidelidad de los clientes.
Generación de iconos
DALLE 3 actúa como un generador de iconos personalizados en el que los usuarios pueden elegir el estilo, el tamaño y el tema del icono para su sitio web o aplicación. A continuación, puede generar un SVG personalizado a partir del generador DALLE. Crea un icono perfecto hoy mismo.
Una vez creado, el usuario puede aumentar el brillo y el contraste de la imagen antes de convertirla en un SVG.
¿Cómo escribir una imagen eficaz para DALL E?
Lo mejor es imaginar la imagen de primera mano que ya existe en algún tipo de galería en línea. El usuario puede escribir breves pies de foto o pocas palabras imaginando cómo se vería.
- Sé específico con los detalles. Describe algunos detalles sobre el objeto o personaje que quieres ver en la imagen. Añade información sobre el escenario o el fondo con el estilo del medio (estado del mármol, pintura, foto polaroid, etc.).
- Un usuario puede añadir detalles directivos, por ejemplo, «Fotografía HD de una cámara Sony, retrato de gran formato en Sony D5200». Los detalles adicionales ayudan a la tecnología de IA a afinar el tipo de imagen que necesita el usuario.
- Sigue experimentando. Conoce los puntos fuertes y débiles de DALL E 3 jugando con las indicaciones.
- Mantente informado sobre las últimas mejoras del modelo.
Limitaciones de DALL E
A pesar de ser un modelo potente, existen algunas limitaciones en las capacidades actuales de DALL E.
Dificultad para generar imágenes detalladas
El rendimiento de DALL E tiende a disminuir cuando se enfrenta a entradas textuales muy específicas o técnicas. Esta limitación se hace evidente cuando el sistema debe producir imágenes que requieren captar detalles intrincados o características específicas descritas en el texto. Este problema se hace especialmente patente cuando las instrucciones se refieren a conceptos científicos complejos, diseños técnicos o elementos artísticos matizados.
Imágenes incoherentes debido a ligeros cambios en las instrucciones del texto
Pequeñas alteraciones en las instrucciones textuales proporcionadas a DALLE pueden provocar cambios considerables en las imágenes que produce. Incluso el cambio de una sola palabra o un ligero retoque en la descripción puede producir resultados visuales muy diferentes. Este nivel de sensibilidad a las variaciones de entrada supone un reto para quienes necesitan un control más preciso del proceso de generación de imágenes.
Conclusión
La integración de DALL E 3 con ChatGPT ha revolucionado nuestra forma de abordar la creación de imágenes. Permite mejorar las indicaciones y generar contenidos visuales de forma más colaborativa. Esta sinergia ejemplifica las enormes capacidades del aprendizaje automático, que ofrece soluciones cómodas e innovadoras para la creación de contenidos visuales. DALL E 3 es un brillante ejemplo de las infinitas posibilidades que ofrece el aprendizaje automático para transformar el panorama de la generación de contenidos visuales.
Preguntas frecuentes (FAQs)
¿Puedo acceder a DALL E 3 sin una suscripción ChatGPT Plus?
DALL E 3 no está disponible en OpenAI para usuarios gratuitos. Sin embargo, la empresa afirma que se añadirá en las últimas versiones a Labs. Un usuario puede acceder a DALL E 3 de forma gratuita en el Generador de imágenes de Bing.
¿Tiene DALL E 3 un límite?
Al igual que GPT-4, DALL E 3 tiene un límite de 40 mensajes/3 horas.
Estoy atascado en la fase de ideación. ¿Puede ayudar ChatGPT?
Por supuesto. ChatGPT es excelente para generar ideas creativas. Proporciónale detalles sobre tu marca y te ofrecerá sugerencias sobre temas, símbolos o incluso posibles combinaciones de colores.