Az adatkészletek összefűzése az ölelő arcban

Az Adatkeszletek Osszefuzese Az Olelo Arcban



A Hugging Face „adatkészletek” könyvtára kényelmes módot biztosít az adatkészletek kezeléséhez és kezeléséhez a természetes nyelvi feldolgozási feladatokhoz. A könyvtár által kínált egyik hasznos funkció a concatenate_datasets(), amely lehetővé teszi több adatkészlet összefűzését egyetlen adatkészletbe. Az alábbiakban röviden áttekintjük a concatenate_datasets() függvényt és annak használatát.

concatenate_datasets()

Leírás:

A Hugging Face „datasets” könyvtára biztosítja a concatenate_datasets() függvényt. Több adatkészlet összefűzésére szolgál, egyetlen adatkészletté egyesítve őket egy meghatározott tengely mentén. Ez a funkció különösen akkor hasznos, ha több adatkészlettel rendelkezik, amelyek ugyanazt a struktúrát osztják meg, és ezeket egy egységes adatkészletbe szeretné egyesíteni további feldolgozás és elemzés céljából.







Szintaxis:



tól től adatkészletek import adathalmazok összefűzése

összefűzött_adatkészlet = adathalmazok összefűzése ( adatkészletek , tengely = 0 , info = Egyik sem )

Paraméterek:

adatkészletek (adatkészlet listája): Az összefűzni kívánt adatkészletek listája. Ezeknek az adatkészleteknek kompatibilis jellemzőkkel kell rendelkezniük, ami azt jelenti, hogy azonos sémával, oszlopnevekkel és adattípusokkal rendelkeznek.



tengely (int, opcionális, alapértelmezett=0): Az a tengely, amely mentén az összefűzést végre kell hajtani. A legtöbb NLP-adatkészlet esetében az alapértelmezett 0-s érték használatos, ami azt jelenti, hogy az adatkészletek függőlegesen vannak összefűzve. Ha az axis=1 értéket állítja be, az adatkészletek vízszintesen vannak összefűzve, feltételezve, hogy különböző oszlopokkal rendelkeznek.





info (datasets.DatasetInfo, opcionális): Az összefűzött adatkészletre vonatkozó információk. Ha nincs megadva, az információ a lista első adatkészletéből származik.

Visszaküldések:

összefűzött_adatkészlet (Adatkészlet): Az eredményül kapott adatkészlet az összes bemeneti adatkészlet összefűzése után.



Példa:

# 1. lépés: Telepítse az adatkészlet-könyvtárat

# Telepítheti a pip segítségével:

# !pip telepítési adatkészletek

# 2. lépés: Importálja a szükséges könyvtárakat

tól től adatkészletek import load_dataset , adathalmazok összefűzése

# 3. lépés: Töltse be az IMDb filmismertető adatkészleteit

# Két IMDb adatkészletet fogunk használni, az egyiket a pozitív értékelésekhez

#és még egyet a negatív kritikákért.

# Töltsön be 2500 pozitív véleményt

dataset_pos = load_dataset ( 'imdb' , hasított = 'vonat[:2500]' )

# Töltsön be 2500 negatív véleményt

dataset_neg = load_dataset ( 'imdb' , hasított = 'vonat[-2500:]' )

# 4. lépés: Összefűzze az adatkészleteket

# Mindkét adatkészletet összefűzzük az axis=0 mentén, ahogyan tették

ugyanaz a séma ( ugyanazok a tulajdonságok ) .

összefűzött_adatkészlet = adathalmazok összefűzése ( [ dataset_pos , dataset_neg ] )

# 5. lépés: Elemezze az összefűzött adatkészletet

# Az egyszerűség kedvéért számoljuk meg a pozitív és a negatív számot

# vélemény az összefűzött adatkészletben.

pozitív_értékelések száma = összeg ( 1 számára címke ban ben

összefűzött_adatkészlet [ 'címke' ] ha címke == 1 )

negatív_vélemények száma = összeg ( 1 számára címke ban ben

összefűzött_adatkészlet [ 'címke' ] ha címke == 0 )

# 6. lépés: Jelenítse meg az eredményeket

nyomtatás ( 'Pozitív vélemények száma:' , pozitív_értékelések száma )

nyomtatás ( 'Negatív vélemények száma:' , negatív_vélemények száma )

# 7. lépés: Nyomtasson néhány példaértékelést az összefűzött adatkészletből

nyomtatás ( ' \n Néhány példa vélemény:' )

számára én ban ben hatótávolság ( 5 ) :

nyomtatás ( f 'Áttekintés {i + 1}: {concatenated_dataset['text'][i]}' )

Kimenet:

Az alábbiakban a Hugging Face „adatkészletek” könyvtárprogramjának magyarázata található, amely két IMDb filmismertető adatkészletet fűz össze. Ez elmagyarázza a program célját, használatát és a kóddal kapcsolatos lépéseket.

Adjunk részletesebb magyarázatot a kód egyes lépéseiről:

# 1. lépés: Importálja a szükséges könyvtárakat

tól től adatkészletek import load_dataset , adathalmazok összefűzése

Ebben a lépésben importáljuk a programhoz szükséges könyvtárakat. A „load_dataset” függvényre van szükségünk az IMDb filmismertető adatkészleteinek betöltéséhez, a „concatenate_datasets”-re pedig a későbbi összefűzéshez.

# 2. lépés: Töltse be az IMDb Movie Review Dataseteket

# Töltsön be 2500 pozitív véleményt

dataset_pos = load_dataset ( 'imdb' , hasított = 'vonat[:2500]' )

# Töltsön be 2500 negatív véleményt

dataset_neg = load_dataset ( 'imdb' , hasított = 'vonat[-2500:]' )

Itt a „load_dataset” függvényt használjuk az IMDb adatkészlet két részhalmazának lekérésére. A „dataset_pos” 2500 pozitív értékelést, a „dataset_neg” pedig 2500 negatív véleményt tartalmaz. A split paramétert használjuk a betöltendő példák tartományának megadására, amely lehetővé teszi a teljes adatkészlet egy részhalmazának kiválasztását.

# 3. lépés: Az adatkészletek összefűzése

összefűzött_adatkészlet = adathalmazok összefűzése ( [ dataset_pos , dataset_neg ] )

Ebben a lépésben az IMDb-adatkészlet két részhalmazát egyetlen „concatenated_dataset” nevű adatkészletbe fűzzük össze. A „concatenate_datasets” függvényt használjuk, és egy listával adjuk át, amely tartalmazza az összefűzendő két adatkészletet. Mivel mindkét adatkészletnek ugyanazok a jellemzői, összefűzzük őket az axis=0 mentén, ami azt jelenti, hogy a sorok egymásra vannak halmozva.

# 4. lépés: Elemezze az összefűzött adatkészletet

pozitív_értékelések száma = összeg ( 1 számára címke ban ben

összefűzött_adatkészlet [ 'címke' ] ha címke == 1 )

negatív_vélemények száma = összeg ( 1 számára címke ban ben

összefűzött_adatkészlet [ 'címke' ] ha címke == 0 )

Itt elvégezzük az összefűzött adatkészlet egyszerű elemzését. A listaértelmezéseket az „összeg” függvénnyel együtt használjuk a pozitív és negatív vélemények számának megszámlálására. Iterálunk a ' címke” oszlopában az „összefűzött_adatkészlet”, és növelje a számokat, ha pozitív címkével (1) vagy negatív címkével (0) találkozunk.

# 5. lépés: Jelenítse meg az eredményeket

nyomtatás ( 'Pozitív vélemények száma:' , pozitív_értékelések száma )

nyomtatás ( 'Negatív vélemények száma:' , negatív_vélemények száma )

Ebben a lépésben kinyomtatjuk elemzésünk eredményeit – a pozitív és negatív vélemények számát az összefűzött adatkészletben.

# 6. lépés: Nyomtasson néhány példa-véleményt

nyomtatás ( ' \n Néhány példa vélemény:' )

számára én ban ben hatótávolság ( 5 ) :

nyomtatás ( f 'Áttekintés {i + 1}: {concatenated_dataset['text'][i]}' )

Végül bemutatunk néhány példaáttekintést az összefűzött adatkészletből. Végigfutjuk az adatkészlet első öt példáját, és kinyomtatjuk azok szöveges tartalmát a „text” oszlop segítségével.

Ez a kód egy egyszerű példát mutat be a Hugging Face „adatkészletek” könyvtárának használatára az IMDb filmismertető adatkészletek betöltésére, összefűzésére és elemzésére. Kiemeli a könyvtár azon képességét, hogy egyszerűsítse az NLP-adatkészlet-kezelést, és bemutatja a benne rejlő lehetőségeket kifinomultabb természetes nyelvi feldolgozási modellek és alkalmazások létrehozásában.

Következtetés

A Hugging Face „adatkészletek” könyvtárát használó Python program sikeresen demonstrálja két IMDb filmismertető adatkészlet összefűzését. A pozitív és negatív vélemények részhalmazainak betöltésével a program a concatenate_datasets() függvény segítségével egyetlen adathalmazba egyesíti őket. Ezután egyszerű elemzést végez a kombinált adatkészletben található pozitív és negatív vélemények számának megszámlálásával.

Az „adatkészletek” könyvtár leegyszerűsíti az NLP-adatkészletek kezelésének és manipulálásának folyamatát, így hatékony eszközzé teszi a kutatók, fejlesztők és az NLP-t gyakorló szakemberek számára. Felhasználóbarát felületével és kiterjedt funkcióival a könyvtár könnyed adat-előfeldolgozást, -feltárást és -átalakítást tesz lehetővé. Az ebben a dokumentációban bemutatott program gyakorlati példaként szolgál arra, hogyan lehet a könyvtárat kihasználni az adatösszefűzési és -elemzési feladatok egyszerűsítésére.

Valós forgatókönyvekben ez a program alapjául szolgálhat egy bonyolultabb természetes nyelvi feldolgozási feladatokhoz, mint például a hangulatelemzés, a szövegosztályozás és a nyelvi modellezés. Az „adatkészletek” könyvtár segítségével a kutatók és fejlesztők hatékonyan kezelhetik a nagyméretű adatkészleteket, megkönnyíthetik a kísérletezést, és felgyorsíthatják a legkorszerűbb NLP-modellek fejlesztését. Összességében a Hugging Face „adatkészletek” könyvtára alapvető eszköz a természetes nyelvi feldolgozás és -megértés fejlesztésében.