Hogyan alkalmazzunk csővezetékeket egy adatkészletre a Transformersben?

Hogyan Alkalmazzunk Csovezetekeket Egy Adatkeszletre A Transformersben



A pipeline() függvény a Transformer könyvtár szerves része. Több bemenetre van szükség, amelyekben következtetési feladatot, modelleket, tokenizációs mechanizmust stb. definiálhatunk. A pipeline() függvényt főként NLP feladatok végrehajtására használják egy vagy több szövegen. Előfeldolgozást végez a bemeneten és utófeldolgozást a modell alapján, hogy ember által olvasható kimenetet és pontos előrejelzést generáljon maximális pontossággal.

Ez a cikk a következő szempontokat tárgyalja:







Mi az a Hugging Face Dataset Library?

A Hugging Face adatkészlet-könyvtár egy olyan API, amely több nyilvános adatkészletet tartalmaz, és egyszerű módot biztosít ezek letöltésére. Ez a könyvtár importálható és telepíthető az alkalmazásba a „ csipog ” parancsot. A Hugging Face könyvtár adatkészleteinek letöltésével és telepítésével kapcsolatos gyakorlati bemutatóért látogasson el ide Google Colab link. Több adatkészletet is letölthet a Átölelő arcadatkészlet-központ.



További információ a pipeline() függvény működéséről ebben a cikkben ' Hogyan használjuk a Pipeline() funkciót a transzformátorokban? ”.



Hogyan alkalmazzunk csővezetékeket egy adathalmazra átölelő arcban?

A Hugging Face számos különböző nyilvános adatkészletet kínál, amelyek egysoros kód használatával egyszerűen telepíthetők. Ebben a cikkben egy gyakorlati bemutatót fogunk látni a folyamatok ezekre az adatkészletekre történő alkalmazásáról. A folyamatok kétféleképpen valósíthatók meg az adatkészleten.





1. módszer: Iterációs módszer használata

A pipeline() függvény egy adatkészleten és modellen is iterálható. Ebből a célból kövesse az alábbi lépéseket:

1. lépés: Telepítse a Transformer Library-t

A Transformer könyvtár telepítéséhez adja ki a következő parancsot:



!pip install transzformátorok

2. lépés: Csővezetékek importálása

Importálhatjuk a csővezetéket a Transformer könyvtárból. Ebből a célból adja ki a következő parancsot:

transzformátor import csővezetékből

3. lépés: A csővezeték megvalósítása

Itt a pipeline() függvény a ' modellen van megvalósítva gpt2 ”. A modelleket innen töltheti le Ölelő arcmodell központ:

def imp_pipeline():
x esetén a tartományban (1000):
hozam f'Implementation Dataset{x}'


gener_pipeline= pipeline(model='gpt2', device=0)
gen_char= 0
a gener_pipeline(imp_pipeline()) kimenethez:
gen_char += len(output[0]['generated_text'])

Ebben a kódban a „ gener_pipeline ' egy változó, amely tartalmazza a pipeline() függvényt ' modellel gpt2 ”. Amikor a „ imp_pipeline() ” funkcióval automatikusan felismeri az 1000-re megadott tartományban megnövelt adatokat:

Ennek edzése eltart egy ideig. A link a Google Co is adott.

2. módszer: Datasets Library használata

Ebben a módszerben bemutatjuk a folyamat megvalósítását az „adatkészletek” könyvtár használatával:

1. lépés: Telepítse a Transformert

A Transformer könyvtár telepítéséhez adja ki a következő parancsot:

!pip install transzformátorok

2. lépés: Telepítse a Dataset Library-t

Ahogy a „ adatkészletek ” könyvtár az összes nyilvános adatkészletet tartalmazza, a következő paranccsal telepíthetjük. A „ adatkészletek ” könyvtár, közvetlenül importálhatunk bármilyen adatkészletet a nevének megadásával:

!pip install adatkészletek

3. lépés: Dataset Pipeline

Ha egy folyamatot szeretne felépíteni az adatkészletre, használja a következő kódot. A KeyDataset egy olyan szolgáltatás, amely csak azokat az értékeket adja ki, amelyek érdeklik a felhasználót:

a transformers.pipelines.pt_utils kulcsadatkészletből importál
transzformátor import csővezetékből
adatkészletekből import load_dataset
gen_pipeline = pipeline(model='hf-internal-testing/tiny-random-wav2vec2', device=0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]')a gen_pipeline(KeyDataset(loaddataset, 'audio')) kimenetéhez):
print('Nyomtatási kimenet most')
nyomtatás ('-----------------')
nyomtatás (kimenet)

A fenti kód kimenete az alábbiakban látható:

Ebből az útmutatóból ennyi. A link a Google Co ebben a cikkben is szerepel

Következtetés

A folyamatok adathalmazra történő alkalmazásához vagy iterálhatunk egy adatkészleten egy pipeline() függvény használatával, vagy használhatjuk a ' adathalmazok ” könyvtár. A Hugging Face a GitHub tárhely hivatkozását biztosítja felhasználóinak mind az adatkészletekhez, mind a modellekhez, amelyek a követelmények alapján használhatók. Ez a cikk átfogó útmutatót ad a csővezetékek Transformers adatkészleten történő alkalmazásához.