Hogyan használjunk tokenizert az átölelő arctranszformátorokban?

Hogyan Hasznaljunk Tokenizert Az Atolelo Arctranszformatorokban



A Natural Language Processing (NLP) az adatok nyers formáján működik. A gépi tanulási modelleket összetett adatokra tanítják, de nem tudják megérteni a nyers adatokat. Az adatoknak ehhez a nyers formájához valamilyen számértéket kell társítani. Ez az érték határozza meg a szó értékét és fontosságát az adatokban, és ez alapján történik a számítás.

Ez a cikk lépésenkénti útmutatót tartalmaz a Tokenizers használatáról a Hugging Face Transformersben.

Mi az a tokenizátor?

A Tokenizer az NLP fontos fogalma, és fő célja a nyers szöveg számokká fordítása. Különféle technikák és módszerek léteznek erre a célra. Érdemes azonban megjegyezni, hogy minden technika meghatározott célt szolgál.
Hogyan használjunk tokenizert az átölelő arctranszformátorokban?







Hogyan használjunk tokenizert az átölelő arctranszformátorokban?

A tokenizátor könyvtárat először telepíteni kell, mielőtt használni kezdené és funkciókat importálna belőle. Ezt követően tanítson be egy modellt az AutoTokenizer segítségével, majd adja meg a bemenetet a tokenizálás végrehajtásához.



A Hugging Face a tokenizálás három fő kategóriáját mutatja be, amelyeket alább mutatunk be:



  • Word-alapú Tokenizátor
  • Karakter alapú Tokenizer
  • Alszó alapú Tokenizátor

Íme egy lépésről lépésre útmutató a Tokenizers használatához a Transformersben:





1. lépés: Telepítse a Transformers-t
A transzformátorok telepítéséhez használja a pip parancsot a következő parancsban:

! csipog telepítés transzformátorok



2. lépés: Osztályok importálása
Transzformátorból, import csővezeték , és AutoModelForSequenceClassification könyvtár az osztályozás elvégzéséhez:

transzformátor importcsőből, AutoModelForSequenceClassification

3. lépés: Modell importálása
A ' AutoModelForSequenceClassification ” egy olyan módszer, amely az Auto-Classhoz tartozik a tokenizáláshoz. A from_pretrained() metódust használjuk a megfelelő modellosztály visszaadására a modell típusa alapján.

Itt megadtuk a modell nevét a „ modell név ” változó:

modell név = 'distilbert-base-uncased-finetuned-sst-2-english'
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( modell név )

4. lépés: Importálja az AutoTokenenizert
Adja meg a következő parancsot a tokenek generálásához a „ modell név ” érvként:

transzformátorokból importál AutoTokenenizer

a generált tokent =AutoTokenizer.from_pretrained ( modell név )

5. lépés: Token létrehozása
Most tokeneket fogunk generálni egy mondaton “Szeretem a jó ételeket” a ' a generált tokent ” változó:

szavak =generatetoken ( 'Szeretem a jó ételeket' )
nyomtatás ( szavak )

A kimenetet a következőképpen adjuk meg:

A fenti kód Google Co itt van megadva.

Következtetés

A Tokenizers használatához a Hugging Face-ben telepítse a könyvtárat a pip paranccsal, tanítson be egy modellt az AutoTokenizer segítségével, majd adja meg a bemenetet a tokenizálás végrehajtásához. A tokenizálás használatával adjon súlyokat a szavakhoz, amelyek alapján sorrendbe kerülnek, hogy megtartsák a mondat jelentését. Ez a pontszám határozza meg az elemzés értékét is. Ez a cikk egy részletes útmutató a Tokenizers használatához Hugging Face Transformersben.