Hogyan használjunk tokenizert az átölelő arctranszformátorokban?

A Natural Language Processing (NLP) az adatok nyers formáján működik. A gépi tanulási modelleket összetett adatokra tanítják, de nem tudják megérteni a nyers adatokat. Az adatoknak ehhez a nyers formájához valamilyen számértéket kell társítani. Ez az érték határozza meg a szó értékét és fontosságát az adatokban, és ez alapján történik a számítás.

Ez a cikk lépésenkénti útmutatót tartalmaz a Tokenizers használatáról a Hugging Face Transformersben.

Mi az a tokenizátor?

A Tokenizer az NLP fontos fogalma, és fő célja a nyers szöveg számokká fordítása. Különféle technikák és módszerek léteznek erre a célra. Érdemes azonban megjegyezni, hogy minden technika meghatározott célt szolgál.
Hogyan használjunk tokenizert az átölelő arctranszformátorokban?

Hogyan használjunk tokenizert az átölelő arctranszformátorokban?

A tokenizátor könyvtárat először telepíteni kell, mielőtt használni kezdené és funkciókat importálna belőle. Ezt követően tanítson be egy modellt az AutoTokenizer segítségével, majd adja meg a bemenetet a tokenizálás végrehajtásához.

A Hugging Face a tokenizálás három fő kategóriáját mutatja be, amelyeket alább mutatunk be:

Word-alapú Tokenizátor
Karakter alapú Tokenizer
Alszó alapú Tokenizátor

Íme egy lépésről lépésre útmutató a Tokenizers használatához a Transformersben:

1. lépés: Telepítse a Transformers-t
A transzformátorok telepítéséhez használja a pip parancsot a következő parancsban:

! csipog telepítés transzformátorok

2. lépés: Osztályok importálása
Transzformátorból, import csővezeték , és AutoModelForSequenceClassification könyvtár az osztályozás elvégzéséhez:

transzformátor importcsőből, AutoModelForSequenceClassification

3. lépés: Modell importálása
A ' AutoModelForSequenceClassification ” egy olyan módszer, amely az Auto-Classhoz tartozik a tokenizáláshoz. A from_pretrained() metódust használjuk a megfelelő modellosztály visszaadására a modell típusa alapján.

Itt megadtuk a modell nevét a „ modell név ” változó:

modell név = 'distilbert-base-uncased-finetuned-sst-2-english'
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( modell név )

4. lépés: Importálja az AutoTokenenizert
Adja meg a következő parancsot a tokenek generálásához a „ modell név ” érvként:

transzformátorokból importál AutoTokenenizer

a generált tokent =AutoTokenizer.from_pretrained ( modell név )

5. lépés: Token létrehozása
Most tokeneket fogunk generálni egy mondaton “Szeretem a jó ételeket” a ' a generált tokent ” változó:

szavak =generatetoken ( 'Szeretem a jó ételeket' )
nyomtatás ( szavak )

A kimenetet a következőképpen adjuk meg:

A fenti kód Google Co itt van megadva.

Következtetés

A Tokenizers használatához a Hugging Face-ben telepítse a könyvtárat a pip paranccsal, tanítson be egy modellt az AutoTokenizer segítségével, majd adja meg a bemenetet a tokenizálás végrehajtásához. A tokenizálás használatával adjon súlyokat a szavakhoz, amelyek alapján sorrendbe kerülnek, hogy megtartsák a mondat jelentését. Ez a pontszám határozza meg az elemzés értékét is. Ez a cikk egy részletes útmutató a Tokenizers használatához Hugging Face Transformersben.

Hogyan használjunk tokenizert az átölelő arctranszformátorokban?

Mi az a tokenizátor?

Hogyan használjunk tokenizert az átölelő arctranszformátorokban?

Következtetés

Kategória

Népszerű Bejegyzések

Hogyan lehet megakadályozni a prototípus szennyezési támadásokat?

Pandas Reindex

Előjel nélküli karakterek használata C-ben példákkal

Lekérdezések írása C# LINQ-ban

Mi az Arduino UNO működési frekvenciája?

2 módszer a Raspberry Pi OS telepítésére

Egyszerű JavaScript eszköztipp

Java ArrayDeque – add(), addAll()

Az ActiveX szűrés használata az Internet Explorer 9 alkalmazásban - Winhelponline

Az inkognitó mód letiltása Androidon

Mi az AWS EBS? | Jellemzők és használat

Javítás: A WiFi automatikusan leállt - Intel AC 9560 kód 10 hiba a Windows rendszerben

SQL Növekvő sorrend

Hogyan alkalmazzuk a Hover on Grid Auto Flow alkalmazást Tailwindben?

Javítás – A Discord telepítése sérült – Windows hiba

Mit csinál a getComputedStyle() Window Object metódus a JavaScriptben

Hogyan lehet megoldani a „Nem található modul expressz” hibát a Node.js-ben?

Mi a Docker-compose.yml fájl célja a Dockerben?

A Setprecision használata C++ nyelven

NumPy térkép