Mi az a Dalle-mini és hogyan működik?

Mi Az A Dalle Mini Es Hogyan Mukodik



A Dalle-mini egy mély tanulási modell, amely kiváló minőségű képeket tud generálni a felhasználói szövegből. A DALL-E modellen alapul, amelyet az OpenAI 2021 januárjában adott ki. A DALL-E jelentése „ Szétválasztott nyelv és látens kifejezés ” egy transzformátor alapú neurális hálózat, amely képes szöveget és képeket egy közös látens térbe kódolni, majd bármelyik modalitásba visszakódolni.

Ez a cikk a következő tartalmat ismerteti:







Mi az a Dalle-mini?

Adj neki-mini a DALL-E kisebb és gyorsabb verziója, amelyet az EleutherAI, egy nyílt forráskódú kutatócsoport hozott létre. A Dalle-mini mindössze 6 milliárd paramétert használ, szemben a DALL-E 12 milliárdjával, és egyetlen GPU-n fut. A Dalle-mini más tokenizátort és szókincset is használ a szövegbevitelhez, ami jobban kompatibilis a különböző nyelvekkel és tartományokkal:




jegyzet : A felhasználók ingyenesen hozhatnak létre képeket a Dalle-mini segítségével, ha követik a link .



Mi a Dalle-mini működése?

A Dalle-mini mögött meghúzódó fő ötlet a transzformátorok ereje, amelyek neurális hálózatok. Meg tudják tanulni a hosszú távú függőségeket és összetett mintákat a szekvenciális adatokban, például szövegben vagy képekben.





A transzformátorok két fő részből állnak: egy kódolóból és egy dekódolóból. Az első rész bemenetet (szöveges leírást) vesz, és rejtett vektorokká változtatja. Ezt követően a dekóder veszi, és a bemenet szempontjából releváns kimenetet (képet) generál.

Mi a különbség a Dalle-mini és a DALL-E között?

A Dalle-mini és a DALL-E megosztott kódoló-dekódoló architektúrát használ mind a szöveghez, mind a képekhez. Mindkét modalitást kódolni és dekódolni tudják ugyanazon a hálózaton. Ez lehetővé teszi számukra, hogy megtanuljanak egy közös látens teret, amely megragadja a szöveg és a képek közötti szemantikai kapcsolatot. Ezt követően lehetővé teszi számukra, hogy keresztmodális generálást hajtsanak végre, például képeket készítsenek szövegből vagy fordítva.



Hogyan működik a Dalle-mini?

A szöveges leírásból kép létrehozásához a Dalle-mini először tokenizálja a szöveget egy bájtpáros kódolási (BPE) algoritmus segítségével, amely a szöveget részszóegységekre osztja fel azok gyakorisága és együttes előfordulása alapján:


Térjünk át a Dalle-mini belső működésének részleteire:

A Dalle-mini belső működése

Tegyük fel, hogy a „ játszik ' lehet osztva '' pla ” és „ ying ”. A tokeneket ezután numerikus azonosítókra képezik le egy 8192 tokenből álló szókincs segítségével. Az azonosítók bekerülnek a kódolóba, így 256 x 64 méretű látens megjelenítést készítenek:


A dekóder ezután felveszi a látens ábrázolást, és 256 x 256 pixel méretű képet generál. A dekóder autoregresszív folyamatot használ, ami azt jelenti, hogy minden pixelt egyenként generál, az előző pixelek és a látens reprezentáció függvényében.

Hogyan lehet képet generálni szöveges leírásból a Dalle-mini használatával?

Ha szöveges leírást szeretne létrehozni egy képből a Dalle-mini segítségével, írja be a szöveget a prompt ablakba. Például írja be, hogy ' Egy festmény véletlenszerű virágokból ' a promptban, és nyomja meg a ' Fuss ” gomb:


A kimenet azt mutatja, hogy a Dalle-mini releváns képeket generált a bemeneti szövegnek megfelelően.

Következtetés

A Dalle-mini egy figyelemre méltó modell, amely bemutatja a transzformátorokban rejlő lehetőségeket a keresztmodális generálásban. Természetes nyelvi leírásokból valósághű és változatos képeket, képekből koherens és releváns szövegeket tudnak alkotni. Komplex kompozíciókat is képesek kezelni, például több objektumot vagy attribútumot egy képben vagy szövegben kombinálhatnak. Ez a cikk részletesen ismerteti a Dalle-minit és annak működését.