DALL-E

DALL-E is een kunstmatig intelligentieprogramma dat beelden creëert uit tekstuele beschrijvingen. Het is een product ontwikkeld door OpenAI.

Het gebruikt een versie met 12 miljard parameters van het GPT-3 Transformer-model om natuurlijke taalinvoer te interpreteren (zoals "een groen leren tasje in de vorm van een vijfhoek" of "een isometrisch beeld van een droevige capibara") en overeenkomstige beelden te genereren. Het kan zowel afbeeldingen van realistische objecten maken ("een glas-in-loodraam met een afbeelding van een blauwe aardbei") als van objecten die in de werkelijkheid niet bestaan ("een kubus met de textuur van een stekelvarken"). De naam is een porte-manteauwoord van de animatiefiguur WALL-E van Pixar en Salvador Dalí.

Veel neurale netwerken uit de jaren 2000 en later zijn in staat gebleken realistische beelden te genereren. DALL-E is echter in staat deze te genereren op basis van natuurlijke taalprompts, die het "begrijpt [...] en waarbij het zelden de bal volledig misslaat".

OpenAI heeft voor geen van beide modellen broncode vrijgegeven, hoewel een "controller" van DALL-E beschikbaar is op de website van OpenAI, waar de uitvoer van een beperkte selectie van voorbeeldvragen kan worden bekeken. Opensourcealternatieven, getraind op kleinere hoeveelheden gegevens, zoals DALL-E Mini, zijn door anderen vrijgegeven.

Volgens MIT Technology Review was een van de doelstellingen van OpenAI om "taalmodellen een beter inzicht te geven in de alledaagse concepten die mensen gebruiken om dingen te begrijpen".

DALL-E

From Wikipedia, the free encyclopedia · View on Wikipedia