Hugging Face Filter() módszer

Hugging Face Filter Modszer



A Hugging Face számos természetes nyelvi feldolgozási (NLP) modellt és adatkészletet tartalmaz. Ezek a hatalmas adatkészletek sok olyan információt tartalmaznak, amelyek segítenek a modell pontos betanításában. Néha azonban nincs szükségünk a teljes adatkészletre, mert csak egy kis részre van szükségünk a jelenlegi szükségleteink kielégítéséhez. Ha ugyanazt az adatkészletet szeretnénk használni, mint általában minden információval, akkor a modell betanítása és optimalizálása sok időt vesz igénybe, ami időpocsékolás.

Tehát szükségünk van valamilyen módszerre vagy csomagra, amely ki tudja kinyerni a releváns információkat az adatkészletekből. Egyszerű nyelvezetben azt mondhatjuk, hogy szükségünk van egy további szűrési lehetőségre az adatkészletek követelményeink szerinti szűréséhez.

A Hugging Face különféle lehetőségeket kínál az adatkészletek szűrésére, így a felhasználók testreszabott adatkészleteket hozhatnak létre, amelyek csak példákat vagy konkrét feltételeknek megfelelő információkat tartalmaznak.







Select() Method

Ez a módszer indexek listáján működik, ami azt jelenti, hogy listát kell definiálnunk. A listán belül meg kell említenünk azoknak a soroknak az indexértékeit, amelyeket ki szeretnénk bontani. De ez a módszer csak kis adatkészleteknél működik, hatalmas adatkészleteknél nem, mivel nem láthatjuk a teljes adatkészletet, ha GB-ban (giga bájt) vagy TB-ben (tera bájt) van.



Példa :

new_dataset = adatkészlet. válassza ki ( [ 0 , tizenegy , huszonegy , Négy öt , ötven , 55 ] )

nyomtatás ( csak ( new_dataset ) )

Ebben a példában a „select” módszert használtuk a szükséges információk kiszűrésére az adatkészletből.



Szűrő() módszer

A filter() metódus kiküszöböli a select() folyamat problémáit, mivel nincs konkrét feltétel. A filter() metódus visszaadja az összes olyan sort, amely megfelel egy adott helyzetnek vagy feltételnek.





Példa: Ezt a Python programot „test.py” néven mentjük.

tól től adatkészletek import load_dataset

# 1. lépés: Töltse be az adatkészletet
adatkészlet = load_dataset ( 'imdb' )

# 2. lépés: Határozza meg a szűrési funkciót
def custom_filter ( példa ) :
'''
Egyéni szűrési funkció a pozitív példák megtartásához
hangulat (címke == 1).
'''

Visszatérés példa [ 'címke' ] == 1

# 3. lépés: Alkalmazza a szűrőt egy új szűrt adatkészlet létrehozásához
szűrt_adatkészlet = adatkészlet. szűrő ( custom_filter )

# 4. lépés: Ellenőrizze a rendelkezésre álló oszlopneveket a szűrt adatkészletben
nyomtatás ( 'Elérhető oszlopok a szűrt adatkészletben:' ,
szűrt_adatkészlet. oszlop_nevek )

# 5. lépés: Hozzáférés a szűrt adatkészletből származó információkhoz
szűrt_példák = szűrt_adatkészlet [ 'vonat' ]
szűrt_példák száma = csak ( szűrt_példák )

# 6. lépés: Nyomtassa ki a szűrt példák teljes számát
nyomtatás ( 'Összes szűrt példa:' , szűrt_példák száma )

Kimenet:



Magyarázat:

1. sor: Importáljuk a szükséges load_dataset csomagot az adatkészletekből.

4. sor: Az „imdb” adatkészletet betöltjük a load_dataset használatával.

7-12. sor: Meghatározzuk az egyéni szűrési funkciót ' custom_filter ' hogy a példák pozitív hangulatúak maradjanak (címke == 1). Ez a függvény csak azokat a sorokat adja vissza, amelyek címkeértéke 1.

15. sor: Ez a sor azt mutatja, hogy az adatkészlet tartalmazza az „imdb” film-áttekintési adatokat. Most alkalmazzuk a szűrési funkciót erre az adatbázisra, hogy elkülönítsük a pozitív értékeléseket az adatbázistól, amelyet a továbbiakban a „filtered_dataset” tárol.

18. és 19. sor: Most ellenőrizzük, hogy milyen oszlopnevek állnak rendelkezésre a filtered_dataset-ben. Tehát a „filtered_dataset.column_names” kód megadja követelményeink részleteit.

22. és 23. sor: Ezekben a sorokban szűrjük a szűrt_adatkészlet „vonat” oszlopát, és kiírjuk a vonat oszlop teljes számát (hosszát).

26. sor: Ebben az utolsó sorban a 23. sor eredményét nyomtatjuk ki.

Filter() indexekkel

A filter() metódus indexekkel is használható, ahogy az a select() módban látható. Ehhez azonban meg kell említenünk, hogy a „with_indices=true” kulcsszót a filter() metóduson kívül kell megadni, amint az a következő példában látható:

páratlan_adatkészlet = adatkészlet. szűrő ( lambda példa , idx: idx % 2 != 0 , indexekkel = Igaz )

nyomtatás ( csak ( páratlan_adatkészlet ) )

Ebben a példában a filter() metódus segítségével szűrtük ki a szükséges információkat az adatkészletből, beleértve csak azokat a sorokat, amelyek páratlanok.

A filter() metódus egyes paramétereinek részletes leírása itt található link .

Következtetés

A Hugging Face adatkészlet-könyvtár hatékony és felhasználóbarát eszközkészletet biztosít a különféle adatkészletekkel való hatékony munkavégzéshez, különösen a Natural Language Processing (NLP) és a gépi tanulási feladatok kontextusában. A programban bemutatott filter() függvény lehetővé teszi a kutatók és a gyakorlati szakemberek számára, hogy a felhasználó által definiált szűrési feltételek meghatározásával releváns adatrészeket vonjanak ki. Ezzel a funkcióval a felhasználók könnyedén hozhatnak létre olyan új adatkészleteket, amelyek megfelelnek bizonyos feltételeknek, mint például a pozitív hangulat fenntartása a filmkritikákban vagy meghatározott szöveges adatok kinyerése.

Ez a lépésről lépésre bemutató bemutató bemutatja, milyen egyszerű az adatkészlet betöltése, az egyéni szűrőfunkciók alkalmazása és a szűrt adatok elérése. Ezenkívül a függvényparaméterek rugalmassága lehetővé teszi az egyéni szűrési műveleteket, beleértve a nagy adatkészletek többszöri feldolgozásának támogatását. A Hugging Face adatkészlet-könyvtárral a felhasználók egyszerűsíthetik adataikat.