Pandas Qcut

Pandas Qcut



„A „Python” sok könyvtárat tartalmaz, és amikor adatokat akarunk elemezni vagy manipulálni, akkor ezeket a „Python” könyvtárakat használjuk, és a „pandák” is ennek a könyvtára. A „pandas” könyvtárat az adattudományok területén használják, és használják gépi tanulási tevékenységekben is. A „pandas” DataFrame segít az adatok mentésében. A „pandákban” amikor adatbinninget akarunk, akkor a „qcut()” metódust használjuk. A „qcut()” metódus a folytonos jellemzők kategorikussá alakítására szolgál. Ebben a „qcut()” metódusban különféle típusú paramétereket adhatunk hozzá, hogy különböző típusú eredményeket kapjunk. Ez az oktatóanyag a „qcut()” metódusról szól, és itt részletesen elmagyarázzuk a „qcut()” metódust. Ebben az oktatóanyagban elmagyarázzuk Önnek, hogyan hajtjuk végre az adatok binningjét a „qcut()” függvény segítségével a „pandas”-ban.

Példa # 01

A „qcut()” metódust alkalmazzuk ezekben a kódokban, és ezeket a kódokat a „Spyder” alkalmazásban. Amikor a „pandákkal” kell dolgoznunk, csak akkor érhetjük el a funkcióit, ha a „pandák” könyvtárat importáljuk a kódjainkba. Először beírjuk az „import” kifejezést, majd a „pandas as pd”-t írjuk. Most a „qcut()” metódust kell alkalmaznunk, ezért itt hozzuk létre a DataFrame-et. Megszerkesztjük a „Random_df”-et, amely oszlopként az „R_ID, R_name és R_age”-t tartalmazza, és az „R_ID”-ben is az „R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 és R_81”. Ezután hozzáadjuk a „Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob és Harper” kifejezést az „R_name” oszlopban. Ezek után az „R_age” oszlopba beillesztjük a „21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 és 40” számokat. Most a 'print()'-et használjuk, amely tartalmazza a 'Random_df'-et, és ez segít a 'Random_df' DataFrame megjelenítésében. Nemrég hoztuk létre a DataFrame-et, és még nem alkalmazzuk a „qcut()” metódust.








A „Futtatás” ikon segít a kódok végrehajtásában. Ha megnyomjuk ezt a „futtatás” ikont, akkor ennek a kódnak az eredménye megjelenik a „Spyder” alkalmazás terminálján. A „Random_df” DataFarme annak a kódnak az eredményeként jelenik meg, amelyet ebben a példában írtunk. Most alkalmazni fogjuk a „qcut()” metódust, és megmutatjuk annak eredményét is.




Itt összegyűjtjük az adatokat. Binneljük az „R_age” oszlopot, és elhelyezzük a „pd.qcut()” metódust, amely a „pandas” metódusa, amely segít az adatbinningben. Ebben a metódusban beillesztjük a DataFrame nevét és annak az oszlopnak a nevét is, amelyre ezt a „qcut()” metódust alkalmazni szeretnénk. A „q” értékét szintén „5”-re állítjuk, és ezzel az „R_age” oszlop adatait öt egyenlő kvantisre vágjuk. Hozzáadjuk a „qcut()” metódust a „print()-hez”, így a binning adatokat is megjeleníti a terminálon.




Itt a binning utáni adatok jelennek meg, és az „R_age”-t öt kvantilisre vágja. Megjeleníti azokat a kategóriákat is, amelyekben az „R_age” oszlop adatai bindálva vannak. A kategorikus sorozat az „R_age” tartályokat jelenti.






Ezekhez a tartályokhoz a címkét is beállíthatjuk. Ezeket a szemetescímkéket adjuk hozzá, hogy könnyebben értelmezhetőek legyenek. A „Random_df”-hez hozzáadunk egy „R_age_qcut” oszlopot, amelyben hozzáadjuk ezeknek a tárolóknak a címkéit. A címkézéshez ismét a „pd.qcut()” metódust használjuk. Hozzáadjuk a „kicsi, nem olyan kicsi, közepes, magas és legmagasabb” címkéket. Ezután ismét beírjuk a „Random_df”-et a „print()”-be.


Ebben az eredményben minden tartály fel van címkézve és bemutatva. Ebben a DataFrame-ben az „R_age_qcut” oszlop jelenik meg, amelyben a címkézett rekeszek láthatók.



02. példa

A DataFrame létrehozásához először hozzáadunk „osztályzatokat”, amelyek a következők: „3, 6, 8, 7, 2, 5, 1, 9, 4, 7 és 8”. Ezután hozzáadjuk a tanulók neveit a „tanulókhoz”, amelyek a következők: „Peter, Bromley, James, David, Allies, John, James, Samuel, William, Howard és Alexander”. Ezután létrehozzuk a „Grades_df”-et, ahol hozzáadtuk a „pd.DataFrame()” metódust, és ebbe a metódusba betesszük az „Std_name”-t, amely oszlopnévként fog megjelenni, és ehhez rendeljük a „students” értékeit. Ezután beállítjuk a DataFrame oszlopnevének a „Students_grades”-t, és ide is hozzárendeljük a „grades”-et, amit fent készítettünk. Ezek után megvan a „print()”, amiben hozzáadjuk a „Grades_df”-t a nyomtatáshoz.


A kód eredményeként megjelenik a két oszlopot tartalmazó DataFrame. Most a „qcut()” metódust alkalmazzuk a „Students_grades” oszlopban az oszlop értékeinek adatainak binninghez.


Hozzáadunk egy új „grade” oszlopot, amelyben a „pd.qcut()”-t alkalmaztuk a „Students_grades” oszlopra, valamint a „4”-et használtuk a „q” értékére, így vágni fog. az adatokat négy egyenlő kvantilisba. Ezt követően itt adjuk meg ezeket a kvantisokat úgy, hogy „q”-ba helyezzük az értékeket, amelyek „0, .4, .8 és 1”. Aztán ezt is megjelenítjük. Most címkézzük ezeket az összegyűjtött adatokat, és az itt hozzáadott címkék a „D, C, A és B”, és szintén a „grade” oszlopban vannak tárolva.


Itt a binning utáni adatok itt, a „grade” oszlopban jelennek meg, és a „Students_grades” oszlop adatait négy egyenlő kvantilisre vágja.


Ebben az eredményben megjelenik az a DataFrame, amelyet a „qcut()” metódus alkalmazása és a kvantilisek megadása után kapunk.


Most, miután hozzáadta a címkéket ezekhez a tálcákhoz, szintén ebben az eredményben jelennek meg az „érdemjegy” oszlopban, és láthatja, hogy a címkéket a tárolóértékek szerint rendeli hozzá.

03. példa

Alkalmazhatjuk a „qcut()” metódust is a CSV fájl adataira. Ehhez először a „read_csv()” metódus segítségével olvassuk be a CSV fájl adatait. Az „office2.csv” fájl adatait olvassuk be, majd ennek a fájlnak az adatai az „Office_df”-be kerülnek. Ez a módszer az „office2” fájl adatait DataFrame-be konvertálja, és az „Office_df” mappába menti. Ezután ezeket az adatokat is megjelenítjük úgy, hogy az „Office_df”-t a „print()”-be helyezzük. Ezek után hozzáadunk egy új oszlopot „Units_qcut” néven, amelyre alkalmazzuk a „pd.qcut()” függvényt az „Units” oszlopban.

Ezenkívül a „q” változó értékét „5”-re állítjuk, ami öt egyenlő kvantilisre osztja az adatokat. Az adatok 5 egyenlő kvantilisra vágás után a „Units_qcut” oszlopban tárolódnak, és ez az oszlop is hozzáadódik az „Office_df”-hez, valamint az „Office_df”-hez a „print()” segítségével újra előállítva. Most címkézzük ezeket az összegyűjtött adatokat, hozzáadjuk a címkéket a „qcut()” metódusban, amelyek a következők: „Unit 1, Unit 2, Unit 3, Unit 4 és Unit 5”, és tároljuk őket a „Címkék” oszlopban is. . Ezt a DataFrame-et is megjelenítjük, amelyben a „Címkék” oszlop hozzáadódik.


Az „office2.csv” fájl elolvasása után kapott adatok itt DataFrame formájában jelennek meg. Ezután hozzáadódik a „Units_qcut” oszlop, amelyben az „Units” oszlop bind értékei jelennek meg. Ezt követően a „Címkék” oszlop is hozzáadásra kerül, amely ezekhez a bindált értékekhez rendeli a címkéket. Mindez a „qcut()” metódussal történik a „pandas”-ban.

Következtetés

Ebben az oktatóanyagban részletesen elmagyaráztuk a „qcut()” metódust, amely segít a „pandák” adatainak binningben. Megbeszéltük, hogy az adatok a „qcut()” metódusban hozzáadott „q” kvantilis érték szerint vannak binnelve, és a címkéket is ezekhez a binned adatokhoz igazítottuk. Feltártuk a „qcut()” metódust, és ezt a módszert alkalmaztuk a DataFrame oszlopaira, valamint ezt a „qcut()” metódust alkalmaztuk a CSV fájl adataira is, miután elolvastuk a CSV fájlokat. Ebben az oktatóanyagban bemutattuk az összes kód eredményét, hogy világosan elmagyarázzuk és bemutatjuk a „qcut()” módszer eredményét.