Dall-e

DALL-E

Una imagen generada por DALL-E 2 de una mujer haciéndose un selfie con un extraterrestre
Información general
Tipo de programa software
Autor OpenAI
Desarrollador OpenAI
Modelo de desarrollo Transformador de modelos de lenguaje
Lanzamiento inicial 5 de enero de 2021
Licencia OpenAI
Idiomas inglés
Lanzamientos
DALL-E
DALL·E 2
Enlaces

DALL-E (estilizado DALL · E ) es un programa de inteligencia artificial que crea imágenes a partir de descripciones textuales o estímulos (prompt en inglés), reveladas por OpenAI el 5 de enero de 2021.[1]​ Utiliza una versión de 12 mil millones de parámetros[2]​ del modelo GPT-3 Transformer para interpretar las entradas del lenguaje natural (como "un bolso de cuero verde con forma de pentágono" o "una vista isométrica de un capibara triste") y generar las correspondientes imágenes.[3]​ Puede crear imágenes de objetos realistas ("una vidriera policromada con la imagen de una fresa azul") así como objetos que no existen en la realidad ("un cubo con la textura de un puercoespín").[4][5][6]​ Su nombre es un acrónimo de WALL·E y Salvador Dalí.[2][3]

Microsoft implementó el modelo en la herramienta Image Creator de Bing y planea implementarlo en su aplicación Designer.[7]

Muchas redes neuronales artificiales desde la década de 2000 en adelante han podido generar imágenes realistas.[3]​ DALL-E, sin embargo, es capaz de generarlos a partir de indicaciones de lenguaje natural, que "comprende [...] y rara vez falla de manera importante".[3]

DALL-E fue desarrollado y anunciado al público en conjunto a CLIP (Contrastive Language-Image Pre-training o Pre-entrenamiento de Imagen-Lenguaje Contrastante),[1]​ un modelo separado cuya función es "comprender y clasificar" su resultado.[3]​ Las imágenes que genera DALL-E están seleccionadas por CLIP, que presenta las imágenes de más alta calidad.[1]​ OpenAI se ha negado a publicar el código fuente de cualquiera de los modelos; una "demostración controlada" de DALL-E está disponible en el sitio web de OpenAI, donde se puede ver la salida de una selección limitada de mensajes de muestra.[2]​ Las comunidades han publicado alternativas de código abierto, capacitadas en cantidades más pequeñas de datos, como DALL-E Mini.[8]

Según MIT Technology Review, uno de los objetivos de OpenAI era "dar a los modelos de lenguaje una mejor comprensión de los conceptos cotidianos que los humanos usan para dar sentido a las cosas".[1]

  1. a b c d Heaven, Will Douglas (5 de enero de 2021). «This avocado armchair could be the future of AI». MIT Technology Review. Consultado el 5 de enero de 2021. 
  2. a b c Johnson, Khari (5 de enero de 2021). «OpenAI debuts DALL-E for generating images from text». VentureBeat. Archivado desde el original el 5 de enero de 2021. Consultado el 5 de enero de 2021. 
  3. a b c d e Coldewey, Devin (5 de enero de 2021). «OpenAI's DALL-E creates plausible images of literally anything you ask it to». Archivado desde el original el 6 de enero de 2021. Consultado el 5 de enero de 2021. 
  4. Grossman, Gary (16 de enero de 2021). «OpenAI's text-to-image engine, DALL-E, is a powerful visual idea generator». VentureBeat. Archivado desde el original el 26 de febrero de 2021. Consultado el 2 de marzo de 2021. 
  5. Andrei, Mihai (8 de enero de 2021). «This AI module can create stunning images out of any text input». ZME Science. Archivado desde el original el 29 de enero de 2021. Consultado el 2 de marzo de 2021. 
  6. Walsh, Bryan (5 de enero de 2021). «A new AI model draws images from text». Axios. Consultado el 2 de marzo de 2021. 
  7. Mehdi, Yusuf (21 de septiembre de 2023). «Announcing Microsoft Copilot, your everyday AI companion». The Official Microsoft Blog (en inglés estadounidense). Consultado el 18 de diciembre de 2023. 
  8. Dayma, Boris; Patil, Suraj; Cuenca, Pedro; Saifullah, Khalid; Abraham, Tanishq; Lê Khắc, Phúc; Melas, Luke; Ghosh, Ritobrata, DALL·E Mini, consultado el 29 de noviembre de 2021 .

From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by Tubidy