A Hugging Face „adatkészletek” könyvtára kényelmes módot biztosít az adatkészletek kezeléséhez és kezeléséhez a természetes nyelvi feldolgozási feladatokhoz. A könyvtár által kínált egyik hasznos funkció a concatenate_datasets(), amely lehetővé teszi több adatkészlet összefűzését egyetlen adatkészletbe. Az alábbiakban röviden áttekintjük a concatenate_datasets() függvényt és annak használatát.
concatenate_datasets()
Leírás:
A Hugging Face „datasets” könyvtára biztosítja a concatenate_datasets() függvényt. Több adatkészlet összefűzésére szolgál, egyetlen adatkészletté egyesítve őket egy meghatározott tengely mentén. Ez a funkció különösen akkor hasznos, ha több adatkészlettel rendelkezik, amelyek ugyanazt a struktúrát osztják meg, és ezeket egy egységes adatkészletbe szeretné egyesíteni további feldolgozás és elemzés céljából.
Szintaxis:
tól től adatkészletek import adathalmazok összefűzése
összefűzött_adatkészlet = adathalmazok összefűzése ( adatkészletek , tengely = 0 , info = Egyik sem )
Paraméterek:
adatkészletek (adatkészlet listája): Az összefűzni kívánt adatkészletek listája. Ezeknek az adatkészleteknek kompatibilis jellemzőkkel kell rendelkezniük, ami azt jelenti, hogy azonos sémával, oszlopnevekkel és adattípusokkal rendelkeznek.
tengely (int, opcionális, alapértelmezett=0): Az a tengely, amely mentén az összefűzést végre kell hajtani. A legtöbb NLP-adatkészlet esetében az alapértelmezett 0-s érték használatos, ami azt jelenti, hogy az adatkészletek függőlegesen vannak összefűzve. Ha az axis=1 értéket állítja be, az adatkészletek vízszintesen vannak összefűzve, feltételezve, hogy különböző oszlopokkal rendelkeznek.
info (datasets.DatasetInfo, opcionális): Az összefűzött adatkészletre vonatkozó információk. Ha nincs megadva, az információ a lista első adatkészletéből származik.
Visszaküldések:
összefűzött_adatkészlet (Adatkészlet): Az eredményül kapott adatkészlet az összes bemeneti adatkészlet összefűzése után.
Példa:
# 1. lépés: Telepítse az adatkészlet-könyvtárat# Telepítheti a pip segítségével:
# !pip telepítési adatkészletek
# 2. lépés: Importálja a szükséges könyvtárakat
tól től adatkészletek import load_dataset , adathalmazok összefűzése
# 3. lépés: Töltse be az IMDb filmismertető adatkészleteit
# Két IMDb adatkészletet fogunk használni, az egyiket a pozitív értékelésekhez
#és még egyet a negatív kritikákért.
# Töltsön be 2500 pozitív véleményt
dataset_pos = load_dataset ( 'imdb' , hasított = 'vonat[:2500]' )
# Töltsön be 2500 negatív véleményt
dataset_neg = load_dataset ( 'imdb' , hasított = 'vonat[-2500:]' )
# 4. lépés: Összefűzze az adatkészleteket
# Mindkét adatkészletet összefűzzük az axis=0 mentén, ahogyan tették
ugyanaz a séma ( ugyanazok a tulajdonságok ) .
összefűzött_adatkészlet = adathalmazok összefűzése ( [ dataset_pos , dataset_neg ] )
# 5. lépés: Elemezze az összefűzött adatkészletet
# Az egyszerűség kedvéért számoljuk meg a pozitív és a negatív számot
# vélemény az összefűzött adatkészletben.
pozitív_értékelések száma = összeg ( 1 számára címke ban ben
összefűzött_adatkészlet [ 'címke' ] ha címke == 1 )
negatív_vélemények száma = összeg ( 1 számára címke ban ben
összefűzött_adatkészlet [ 'címke' ] ha címke == 0 )
# 6. lépés: Jelenítse meg az eredményeket
nyomtatás ( 'Pozitív vélemények száma:' , pozitív_értékelések száma )
nyomtatás ( 'Negatív vélemények száma:' , negatív_vélemények száma )
# 7. lépés: Nyomtasson néhány példaértékelést az összefűzött adatkészletből
nyomtatás ( ' \n Néhány példa vélemény:' )
számára én ban ben hatótávolság ( 5 ) :
nyomtatás ( f 'Áttekintés {i + 1}: {concatenated_dataset['text'][i]}' )
Kimenet:
Az alábbiakban a Hugging Face „adatkészletek” könyvtárprogramjának magyarázata található, amely két IMDb filmismertető adatkészletet fűz össze. Ez elmagyarázza a program célját, használatát és a kóddal kapcsolatos lépéseket.
Adjunk részletesebb magyarázatot a kód egyes lépéseiről:
# 1. lépés: Importálja a szükséges könyvtárakattól től adatkészletek import load_dataset , adathalmazok összefűzése
Ebben a lépésben importáljuk a programhoz szükséges könyvtárakat. A „load_dataset” függvényre van szükségünk az IMDb filmismertető adatkészleteinek betöltéséhez, a „concatenate_datasets”-re pedig a későbbi összefűzéshez.
# 2. lépés: Töltse be az IMDb Movie Review Dataseteket# Töltsön be 2500 pozitív véleményt
dataset_pos = load_dataset ( 'imdb' , hasított = 'vonat[:2500]' )
# Töltsön be 2500 negatív véleményt
dataset_neg = load_dataset ( 'imdb' , hasított = 'vonat[-2500:]' )
Itt a „load_dataset” függvényt használjuk az IMDb adatkészlet két részhalmazának lekérésére. A „dataset_pos” 2500 pozitív értékelést, a „dataset_neg” pedig 2500 negatív véleményt tartalmaz. A split paramétert használjuk a betöltendő példák tartományának megadására, amely lehetővé teszi a teljes adatkészlet egy részhalmazának kiválasztását.
# 3. lépés: Az adatkészletek összefűzéseösszefűzött_adatkészlet = adathalmazok összefűzése ( [ dataset_pos , dataset_neg ] )
Ebben a lépésben az IMDb-adatkészlet két részhalmazát egyetlen „concatenated_dataset” nevű adatkészletbe fűzzük össze. A „concatenate_datasets” függvényt használjuk, és egy listával adjuk át, amely tartalmazza az összefűzendő két adatkészletet. Mivel mindkét adatkészletnek ugyanazok a jellemzői, összefűzzük őket az axis=0 mentén, ami azt jelenti, hogy a sorok egymásra vannak halmozva.
# 4. lépés: Elemezze az összefűzött adatkészletetpozitív_értékelések száma = összeg ( 1 számára címke ban ben
összefűzött_adatkészlet [ 'címke' ] ha címke == 1 )
negatív_vélemények száma = összeg ( 1 számára címke ban ben
összefűzött_adatkészlet [ 'címke' ] ha címke == 0 )
Itt elvégezzük az összefűzött adatkészlet egyszerű elemzését. A listaértelmezéseket az „összeg” függvénnyel együtt használjuk a pozitív és negatív vélemények számának megszámlálására. Iterálunk a ' címke” oszlopában az „összefűzött_adatkészlet”, és növelje a számokat, ha pozitív címkével (1) vagy negatív címkével (0) találkozunk.
# 5. lépés: Jelenítse meg az eredményeketnyomtatás ( 'Pozitív vélemények száma:' , pozitív_értékelések száma )
nyomtatás ( 'Negatív vélemények száma:' , negatív_vélemények száma )
Ebben a lépésben kinyomtatjuk elemzésünk eredményeit – a pozitív és negatív vélemények számát az összefűzött adatkészletben.
# 6. lépés: Nyomtasson néhány példa-véleménytnyomtatás ( ' \n Néhány példa vélemény:' )
számára én ban ben hatótávolság ( 5 ) :
nyomtatás ( f 'Áttekintés {i + 1}: {concatenated_dataset['text'][i]}' )
Végül bemutatunk néhány példaáttekintést az összefűzött adatkészletből. Végigfutjuk az adatkészlet első öt példáját, és kinyomtatjuk azok szöveges tartalmát a „text” oszlop segítségével.
Ez a kód egy egyszerű példát mutat be a Hugging Face „adatkészletek” könyvtárának használatára az IMDb filmismertető adatkészletek betöltésére, összefűzésére és elemzésére. Kiemeli a könyvtár azon képességét, hogy egyszerűsítse az NLP-adatkészlet-kezelést, és bemutatja a benne rejlő lehetőségeket kifinomultabb természetes nyelvi feldolgozási modellek és alkalmazások létrehozásában.
Következtetés
A Hugging Face „adatkészletek” könyvtárát használó Python program sikeresen demonstrálja két IMDb filmismertető adatkészlet összefűzését. A pozitív és negatív vélemények részhalmazainak betöltésével a program a concatenate_datasets() függvény segítségével egyetlen adathalmazba egyesíti őket. Ezután egyszerű elemzést végez a kombinált adatkészletben található pozitív és negatív vélemények számának megszámlálásával.
Az „adatkészletek” könyvtár leegyszerűsíti az NLP-adatkészletek kezelésének és manipulálásának folyamatát, így hatékony eszközzé teszi a kutatók, fejlesztők és az NLP-t gyakorló szakemberek számára. Felhasználóbarát felületével és kiterjedt funkcióival a könyvtár könnyed adat-előfeldolgozást, -feltárást és -átalakítást tesz lehetővé. Az ebben a dokumentációban bemutatott program gyakorlati példaként szolgál arra, hogyan lehet a könyvtárat kihasználni az adatösszefűzési és -elemzési feladatok egyszerűsítésére.
Valós forgatókönyvekben ez a program alapjául szolgálhat egy bonyolultabb természetes nyelvi feldolgozási feladatokhoz, mint például a hangulatelemzés, a szövegosztályozás és a nyelvi modellezés. Az „adatkészletek” könyvtár segítségével a kutatók és fejlesztők hatékonyan kezelhetik a nagyméretű adatkészleteket, megkönnyíthetik a kísérletezést, és felgyorsíthatják a legkorszerűbb NLP-modellek fejlesztését. Összességében a Hugging Face „adatkészletek” könyvtára alapvető eszköz a természetes nyelvi feldolgozás és -megértés fejlesztésében.