Dall-e

programa generador de imágenes

DALL-E (estilizado DALL · E ) es un programa de inteligencia artificial que crea imágenes a partir de descripciones textuales o estímulos (prompt en inglés), reveladas por OpenAI el 5 de enero de 2021.[1]​ Utiliza una versión de 12 mil millones de parámetros[2]​ del modelo GPT-3 Transformer para interpretar las entradas del lenguaje natural (como «un bolso de cuero verde con forma de pentágono» o «una vista isométrica de un capibara triste») y generar las correspondientes imágenes.[3]​ Puede crear imágenes de objetos realistas («una vidriera policromada con la imagen de una fresa azul») así como objetos que no existen en la realidad («un cubo con la textura de un puercoespín»).[4][5][6]​ Su nombre es un acrónimo de WALL·E y Salvador Dalí.[2][3]

DALL-E

Una imagen generada por DALL-E 3 (a través de ChatGPT) a partir del mensaje: «Generar una imagen que represente Dall-e».
Información general
Tipo de programa software
Autor OpenAI
Desarrollador OpenAI
Modelo de desarrollo Transformador de modelos de lenguaje
Lanzamiento inicial 5 de enero de 2021
Licencia OpenAI
Idiomas inglés
Lanzamientos
DALL-E
DALL·E 2
Enlaces

Microsoft implementó el modelo en la herramienta Image Creator de Bing y planea implementarlo en su aplicación Designer.[7]

Muchas redes neuronales artificiales desde la década de 2000 en adelante han podido generar imágenes realistas.[3]​ DALL-E, sin embargo, es capaz de generarlos a partir de indicaciones de lenguaje natural, que «comprende [...] y rara vez falla de manera importante».[3]

DALL-E fue desarrollado y anunciado al público en conjunto a CLIP (Contrastive Language-Image Pre-training o Pre-entrenamiento de Imagen-Lenguaje Contrastante),[1]​ un modelo separado cuya función es «comprender y clasificar» su resultado.[3]​ Las imágenes que genera DALL-E están seleccionadas por CLIP, que presenta las imágenes de más alta calidad.[1]​ OpenAI se ha negado a publicar el código fuente de cualquiera de los modelos; una «demostración controlada» de DALL-E está disponible en el sitio web de OpenAI, donde se puede ver la salida de una selección limitada de mensajes de muestra.[2]​ Las comunidades han publicado alternativas de código abierto, capacitadas en cantidades más pequeñas de datos, como DALL-E Mini.[8]

Según MIT Technology Review, uno de los objetivos de OpenAI era «dar a los modelos de lenguaje una mejor comprensión de los conceptos cotidianos que los humanos usan para dar sentido a las cosas».[1]

Arquitectura

editar
 
Una imagen generada por Dall-e tras escribir el mensaje de texto: «Un edificio arquitectónico moderno con grandes ventanales de vidrio, situado en un acantilado con vista a un océano sereno al atardecer».
 
Una imagen generada con DALL-E 2 basada en el texto: «Arte de los años 60 de una vaca secuestrada por un ovni en el medio oeste».

El modelo Generative Pre-Training Transformer (GPT) fue desarrollado inicialmente por OpenAI en 2018,[9]​ utilizando la arquitectura Transformer. La primera iteración, GPT, se amplió para producir GPT-2 en 2019;[10]​ en 2020 se volvió a ampliar para producir GPT-3.[11][2][12]

El modelo de DALL-E es una implementación multimodal de GPT-3[13]​ con 12 mil millones de parámetros[2]​ (reducido de los 175 mil millones de GPT-3)[11]​ que «intercambia texto por píxeles», entrenado en pares texto-imagen de Internet.[1]​ Utiliza el aprendizaje zero-shot para generar resultados a partir de una descripción y una pista sin más entrenamiento.[14]

DALL-E genera una gran cantidad de imágenes en respuesta a unas indicaciones. Otro modelo OpenAI, CLIP, se desarrolló junto (y se anunció simultáneamente) con DALL-E para «comprender y clasificar» este resultado.[3]​ CLIP se entrenó en más de 400 millones de pares de imágenes y texto.[2]​ CLIP es un sistema de reconocimiento de imágenes;[15]​ sin embargo, a diferencia de la mayoría de los modelos de clasificadores, CLIP no fue entrenado con conjuntos de datos seleccionados de imágenes etiquetadas (como ImageNet), sino con imágenes y descripciones extraídas de Internet.[1]​ En lugar de aprender de una sola etiqueta, CLIP asocia imágenes con subtítulos completos.[1]​ CLIP se entrenó para predecir qué subtítulo (de una «selección aleatoria» de 32.768 subtítulos posibles) era el más apropiado para una imagen, lo que le permitía identificar posteriormente objetos en una amplia variedad de imágenes fuera de su conjunto de entrenamiento.[1]

Funcionamiento

editar
 
Imágenes producidas por DALL-E al indicarle que representase «una ilustración profesional en alta calidad de una jirafa dragón quimera. una jirafa imitando a un dragón. una jirafa hecha de dragón»

DALL-E es capaz de generar imágenes en una variedad de estilos, desde imágenes fotorrealistas[2]​ hasta pinturas y emoji. También puede «manipular y reorganizar» objetos en sus imágenes.[2]​ Una habilidad captada por sus creadores fue la correcta colocación de elementos diseñados en composiciones novedosas sin instrucciones explícitas: «Por ejemplo, cuando se le pide que dibuje un rábano japonés sonándose la nariz, tomando un café con leche o montando un monociclo, DALL · E a menudo dibuja el pañuelo, manos y pies en lugares plausibles».[16]​ Si bien DALL-E exhibió una amplia variedad de destrezas y habilidades, en su lanzamiento público, la mayor parte de la cobertura se centró en un pequeño subconjunto de imágenes de salida «surrealistas»[1]​ o «extravagantes».[17]​ Específicamente, la producción de DALL-E para «una ilustración de un rábano japonés bebé en un tutú paseando a un perro» se mencionó en piezas de Input,[18]​ NBC,[19]Nature,[20]VentureBeat,[2]​ Wired,[21]​ CNN,[22]New Scientist[23]​ y la BBC;[24]​. Su resultado de «un sillón con la forma de un aguacate» fue presentado por Wired,[21]VentureBeat,[2]New Scientist,[23]​ NBC,[19]MIT Technology Review,[1]​ CNBC,[17]​ CNN[22]​ y BBC.[24]​ En contraste, el ingeniero de aprendizaje automático Dale Markowitz informó sobre el desarrollo involuntario de las habilidades de razonamiento visual de DALL-E suficientes para resolver las Matrices de Raven (pruebas visuales que a menudo se administran a humanos para medir la inteligencia) en un artículo para TheNextWeb.[25]

Nature presentó DALL-E como «un programa de inteligencia artificial que puede dibujar prácticamente cualquier cosa que pida».[20]​ Thomas Macaulay de TheNextWeb calificó sus imágenes de «impactantes» y «realmente impresionantes», y destacó su capacidad para «crear imágenes completamente nuevas mediante la exploración de la estructura de un mensaje, incluidos objetos fantásticos que combinan ideas no relacionadas que nunca se alimentaron en el entrenamiento».[26]​ ExtremeTech dijo que «a veces las representaciones son un poco mejores que pintar con los dedos, pero otras veces son representaciones sorprendentemente precisas»;[27]TechCrunch señaló que, si bien DALL-E era «un trabajo fabulosamente interesante y poderoso», ocasionalmente producía extrañas o incomprensibles salida, y «muchas imágenes que genera están más que un poco ... apagadas»:[3]

Decir «un bolso de cuero verde con forma de pentágon» puede producir lo que se espera, pero «un bolso de gamuza azul con forma de pentágono» puede producir pesadillas. ¿Por qué? Es difícil de decir, dada la naturaleza de caja negra de estos sistemas.[3]

 
Ejemplo de imágenes generadas por DALL-E a partir de las siguientes instrucciones:[28]
* una biblioteca medieval a la luz de la luna;
* una biblioteca medieval a la luz de la luna (mismas instrucciones);
* un códice sobre una mesa en una biblioteca medieval;
* un monje copista trabajando a la luz de una vela;
* la silueta de un monje cisterciense parcialmente oculta tras una cortina;
* primer plano de la manga de un monje cisterciense que sostiene en su mano una daga;
* claroscuro de un monje cisterciense tendido en el suelo;
* claroscuro de una daga en el suelo;
* silueta de un monje cisterciense portando un códice en un pasillo oscuro.

A pesar de esto, DALL-E fue descrito como «notablemente robusto a tales cambios» y confiable en la producción de imágenes para una amplia variedad de descripciones arbitrarias.[3]​ Sam Shead, que informa para CNBC, calificó sus imágenes de «extravagantes» y citó a Neil Lawrence, profesor de aprendizaje automático en la Universidad de Cambridge, quien lo describió como una «demostración inspiradora de la capacidad de estos modelos para almacenar información sobre nuestro mundo y generalizar en formas que los humanos encuentran muy naturales». Shead también citó a Mark Riedl, profesor asociado de la Escuela de Computación Interactiva de Georgia Tech, diciendo que los resultados de la demostración de DALL-E demostraron que era capaz de «combinar conceptos de manera coherente», un elemento clave de la creatividad humana, y que «la demo de DALL -E es destacable por producir ilustraciones que son mucho más coherentes que otros sistemas Text2Image que he visto en los últimos años».[17]​ Riedl también fue citado por la BBC diciendo que estaba «impresionado por lo que el sistema podía hacer».[24]

También se destacó la capacidad de DALL-E para «completar los espacios en blanco» e introducir detalles apropiados sin indicaciones específicas. ExtremeTech notó que una indicación para dibujar «un pingüino con un jersey navideño» producía imágenes de pingüinos que no solo usando un jersey, sino también sombreros de Santa,[27]​ y Engadget señaló que aparecieron sombras apropiadamente colocadas en los resultados del mensaje «una pintura de un zorro sentado en un campo durante el invierno».[14]​ Además, DALL-E exhibe una amplia comprensión de las tendencias visuales y de diseño; ExtremeTech dijo que «puede pedirle a DALL-E una imagen de un teléfono o una aspiradora de un período de tiempo específico, y entiende cómo han cambiado esos objetos».[27]​ Engadget también señaló su capacidad inusual de «comprender cómo los teléfonos y otros objetos cambian con el tiempo».[14]​ DALL-E ha sido descrito, junto con otra «IA estrecha» como AlphaGo, AlphaFold y GPT-3 como «[generando] interés en si y cómo se puede lograr la inteligencia artificial fuerte».[29]

Trascendencia

editar
 
Una imagen generada por DALL-E 3 basada en el texto preciso: «Una ilustración de un aguacate sentado en la silla de un terapeuta, diciendo 'Me siento tan vacío por dentro' con un agujero del tamaño de un hoyo en el centro. El terapeuta, que es una cuchara, garabatea notas».

OpenAI se ha negado a publicar el código fuente de DALL-E, ni a permitir su uso fuera de una pequeña cantidad de solicitudes de muestra;[2]​ OpenAI afirmó que planeaba «analizar los impactos sociales»[26]​ y «el potencial de sesgo» en modelos como DALL-E.[17]​ A pesar de la falta de acceso, se ha discutido al menos una posible implicación de DALL-E, y varios periodistas y escritores de contenido predicen principalmente que DALL-E podría tener efectos en el campo del periodismo y la redacción de contenido. El artículo de Sam Shead en la CNBC señaló que algunos estaban preocupados por la entonces falta de un artículo publicado que describiera el sistema, y que DALL-E no había sido «de código abierto» [sic].[17]

Si bien TechCrunch dijo «no escribas obituarios de fotografías e ilustraciones de archivo todavía»,[3]​ Engadget dijo que «si se desarrolla más, DALL-E tiene un gran potencial para alterar campos como la fotografía de archivo y la ilustración, con todo lo bueno y lo malo que implica».[14]

En un artículo de opinión de Forbes, el capitalista de riesgo Rob Toews dijo que DALL-E «presagiaba el amanecer de un nuevo paradigma de IA conocido como IA multimodal», en el que los sistemas serían capaces de «interpretar, sintetizar y traducir entre múltiples modalidades de información»; Continuó diciendo que DALL-E demostró que «cada vez es más difícil negar que la inteligencia artificial es capaz de tener creatividad». Sobre la base de las indicaciones de muestra (que incluían maniquíes vestidos y muebles), predijo que DALL-E podría ser utilizado por diseñadores de moda y diseñadores de muebles, pero que «la tecnología va a seguir mejorando rápidamente».[30]

Véase también

editar

Referencias

editar
  1. a b c d e f g h i j Heaven, Will Douglas (5 de enero de 2021). «This avocado armchair could be the future of AI». MIT Technology Review. Consultado el 5 de enero de 2021. 
  2. a b c d e f g h i j k Johnson, Khari (5 de enero de 2021). «OpenAI debuts DALL-E for generating images from text». VentureBeat. Archivado desde el original el 5 de enero de 2021. Consultado el 5 de enero de 2021. 
  3. a b c d e f g h i j Coldewey, Devin (5 de enero de 2021). «OpenAI's DALL-E creates plausible images of literally anything you ask it to». Archivado desde el original el 6 de enero de 2021. Consultado el 5 de enero de 2021. 
  4. Grossman, Gary (16 de enero de 2021). «OpenAI's text-to-image engine, DALL-E, is a powerful visual idea generator». VentureBeat. Archivado desde el original el 26 de febrero de 2021. Consultado el 2 de marzo de 2021. 
  5. Andrei, Mihai (8 de enero de 2021). «This AI module can create stunning images out of any text input». ZME Science. Archivado desde el original el 29 de enero de 2021. Consultado el 2 de marzo de 2021. 
  6. Walsh, Bryan (5 de enero de 2021). «A new AI model draws images from text». Axios. Consultado el 2 de marzo de 2021. 
  7. Mehdi, Yusuf (21 de septiembre de 2023). «Announcing Microsoft Copilot, your everyday AI companion». The Official Microsoft Blog (en inglés estadounidense). Consultado el 18 de diciembre de 2023. 
  8. Dayma, Boris; Patil, Suraj; Cuenca, Pedro; Saifullah, Khalid; Abraham, Tanishq; Lê Khắc, Phúc; Melas, Luke; Ghosh, Ritobrata, DALL·E Mini, consultado el 29 de noviembre de 2021 .
  9. Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 de junio de 2018). «Improving Language Understanding by Generative Pre-Training». OpenAI. p. 12. Archivado desde el original el 26 de enero de 2021. Consultado el 23 de enero de 2021. 
  10. Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 de febrero de 2019). Language models are unsupervised multitask learners 1 (8). Archivado desde el original el 6 de febrero de 2021. Consultado el 19 de diciembre de 2020. 
  11. a b Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav et ál. (2020-07-22). «Language Models are Few-Shot Learners». arXiv:2005.14165  [cs.CL]. 
  12. Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (2021-02-24). «Zero-Shot Text-to-Image Generation». arXiv:2101.12092  [cs.LG]. 
  13. Tamkin, Alex; Brundage, Miles; Clark, Jack; Ganguli, Deep (2021). «Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models». arXiv:2102.02503  [cs.CL]. 
  14. a b c d Dent, Steve (6 de enero de 2021). «OpenAI's DALL-E app generates images from just a description». Engadget. Archivado desde el original el 27 de enero de 2021. Consultado el 2 de marzo de 2021. 
  15. «For Its Latest Trick, OpenAI's GPT-3 Generates Images From Text Captions». Synced. 5 de enero de 2021. Archivado desde el original el 6 de enero de 2021. Consultado el 2 de marzo de 2021. 
  16. Dunn, Thom (10 de febrero de 2021). «This AI neural network transforms text captions into art, like a jellyfish Pikachu». BoingBoing. Archivado desde el original el 22 de febrero de 2021. Consultado el 2 de marzo de 2021. 
  17. a b c d e Shead, Sam (8 de enero de 2021). «Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab». CNBC. Consultado el 2 de marzo de 2021. 
  18. Kasana, Mehreen (7 de enero de 2021). «This AI turns text into surreal, suggestion-driven art». Input. Archivado desde el original el 29 de enero de 2021. Consultado el 2 de marzo de 2021. 
  19. a b Ehrenkranz, Melanie (27 de enero de 2021). «Here's DALL-E: An algorithm learned to draw anything you tell it». NBC News. Archivado desde el original el 20 de febrero de 2021. Consultado el 2 de marzo de 2021. 
  20. a b Stove, Emma (5 de febrero de 2021). «Tardigrade circus and a tree of life — January's best science images». Nature. Archivado desde el original el 8 de marzo de 2021. Consultado el 2 de marzo de 2021. 
  21. a b Knight, Will (26 de enero de 2021). «This AI Could Go From 'Art' to Steering a Self-Driving Car». Wired. Archivado desde el original el 21 de febrero de 2021. Consultado el 2 de marzo de 2021. 
  22. a b Metz, Rachel (2 de febrero de 2021). «A radish in a tutu walking a dog? This AI can draw it really well». CNN. Consultado el 2 de marzo de 2021. 
  23. a b Stokel-Walker, Chris (5 de enero de 2021). «AI illustrator draws imaginative pictures to go with text captions». New Scientist. Archivado desde el original el 28 de enero de 2021. Consultado el 4 de marzo de 2021. 
  24. a b c Wakefield, Jane (6 de enero de 2021). «AI draws dog-walking baby radish in a tutu». British Broadcasting Corporation. Archivado desde el original el 2 de marzo de 2021. Consultado el 3 de marzo de 2021. 
  25. Markowitz, Dale (10 de enero de 2021). «Here's how OpenAI's magical DALL-E image generator works». TheNextWeb. Archivado desde el original el 23 de febrero de 2021. Consultado el 2 de marzo de 2021. 
  26. a b Macaulay, Thomas (6 de enero de 2021). «Say hello to OpenAI's DALL-E, a GPT-3-powered bot that creates weird images from text». TheNextWeb. Archivado desde el original el 28 de enero de 2021. Consultado el 2 de marzo de 2021. 
  27. a b c Whitwam, Ryan (6 de enero de 2021). «OpenAI's 'DALL-E' Generates Images From Text Descriptions». ExtremeTech. Archivado desde el original el 28 de enero de 2021. Consultado el 2 de marzo de 2021. 
  28. Las instrucciones dadas en inglés son:
    a moonlit medieval library
    a moonlit medieval library (2)
    a codex on a table in a medieval library
    a copyist monk at work lit by a candle
    a figure of a Cistercian monk partially hidden behind a curtain
    close-up on the sleeve of a Cistercian monk holding a dagger in his hand
    chiaroscuro of a Cistercian monk lying on the ground
    chiaroscuro of a dagger on the floor
    figure of a Cistercian monk carrying a codex in a dark corridor.
  29. Nichele, Stefano (2021). «Tim Taylor and Alan Dorin: Rise of the self-replicators—early visions of machines, AI and robots that can reproduce and evolve». Genetic Programming and Evolvable Machines 22: 141-145. S2CID 231930573. doi:10.1007/s10710-021-09398-5. 
  30. Toews, Rob (18 de enero de 2021). «AI And Creativity: Why OpenAI's Latest Model Matters». Forbes. Archivado desde el original el 12 de febrero de 2021. Consultado el 2 de marzo de 2021. 

Bibliografía

editar
  • Jens Knappe: Genesis. A Creation Story in Cooperation with an Artificial Intelligence, Berlín 2022, ISBN 978-3-940948-45-8.