Ez a cikk lépésenkénti útmutatót tartalmaz a Tokenizers használatáról a Hugging Face Transformersben.
Mi az a tokenizátor?
A Tokenizer az NLP fontos fogalma, és fő célja a nyers szöveg számokká fordítása. Különféle technikák és módszerek léteznek erre a célra. Érdemes azonban megjegyezni, hogy minden technika meghatározott célt szolgál.
Hogyan használjunk tokenizert az átölelő arctranszformátorokban?
Hogyan használjunk tokenizert az átölelő arctranszformátorokban?
A tokenizátor könyvtárat először telepíteni kell, mielőtt használni kezdené és funkciókat importálna belőle. Ezt követően tanítson be egy modellt az AutoTokenizer segítségével, majd adja meg a bemenetet a tokenizálás végrehajtásához.
A Hugging Face a tokenizálás három fő kategóriáját mutatja be, amelyeket alább mutatunk be:
- Word-alapú Tokenizátor
- Karakter alapú Tokenizer
- Alszó alapú Tokenizátor
Íme egy lépésről lépésre útmutató a Tokenizers használatához a Transformersben:
1. lépés: Telepítse a Transformers-t
A transzformátorok telepítéséhez használja a pip parancsot a következő parancsban:
2. lépés: Osztályok importálása
Transzformátorból, import csővezeték , és AutoModelForSequenceClassification könyvtár az osztályozás elvégzéséhez:
3. lépés: Modell importálása
A ' AutoModelForSequenceClassification ” egy olyan módszer, amely az Auto-Classhoz tartozik a tokenizáláshoz. A from_pretrained() metódust használjuk a megfelelő modellosztály visszaadására a modell típusa alapján.
Itt megadtuk a modell nevét a „ modell név ” változó:
modell név = 'distilbert-base-uncased-finetuned-sst-2-english'pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( modell név )
4. lépés: Importálja az AutoTokenenizert
Adja meg a következő parancsot a tokenek generálásához a „ modell név ” érvként:
a generált tokent =AutoTokenizer.from_pretrained ( modell név )
5. lépés: Token létrehozása
Most tokeneket fogunk generálni egy mondaton “Szeretem a jó ételeket” a ' a generált tokent ” változó:
nyomtatás ( szavak )
A kimenetet a következőképpen adjuk meg:
A fenti kód Google Co itt van megadva.
Következtetés
A Tokenizers használatához a Hugging Face-ben telepítse a könyvtárat a pip paranccsal, tanítson be egy modellt az AutoTokenizer segítségével, majd adja meg a bemenetet a tokenizálás végrehajtásához. A tokenizálás használatával adjon súlyokat a szavakhoz, amelyek alapján sorrendbe kerülnek, hogy megtartsák a mondat jelentését. Ez a pontszám határozza meg az elemzés értékét is. Ez a cikk egy részletes útmutató a Tokenizers használatához Hugging Face Transformersben.