Masinõppe valdkonnas mängib andmete ettevalmistamine mudeli koolitamise edukuses üliolulist rolli. Pandase teegi kasutamisel on masinõppemudeli treenimiseks vajalike andmete ettevalmistamisel mitu etappi. Need sammud hõlmavad andmete laadimist, andmete puhastamist, andmete teisendamist ja andmete tükeldamist.
Andmete ettevalmistamise esimene samm on nende laadimine Panda DataFrame'i. Seda saab teha failist andmeid lugedes või andmebaasist päringuid tehes. Pandas pakub selle protsessi hõlbustamiseks erinevaid funktsioone, nagu "read_csv()", "read_excel()" ja "read_sql()". Kui andmed on laaditud, salvestatakse need tabelivormingus, mis teeb nendega manipuleerimise ja analüüsimise lihtsamaks.
Järgmine samm on andmete puhastamine, mis hõlmab puuduvate väärtuste käsitlemist, duplikaatide eemaldamist ja kõrvalekalletega tegelemist. Puuduvaid väärtusi saab täita selliste meetoditega nagu keskmine imputeerimine või edasi-/tagasi täitmine. Duplikaate saab tuvastada ja eemaldada funktsioonide "duplicated()" ja "drop_duplicates()" abil. Kõrvalekaldeid saab tuvastada statistiliste meetoditega, nagu Z-skoor või interkvartiilne vahemik (IQR) ja neid saab käsitleda kas nende eemaldamise või sobivama väärtuse teisendamisega.
Pärast andmete puhastamist on järgmine samm andmete teisendamine. See hõlmab kategooriliste muutujate teisendamist numbriteks, arvuliste muutujate skaleerimist ja uute funktsioonide loomist. Kategoorilisi muutujaid saab teisendada selliste tehnikate abil nagu one-hot kodeering või sildikodeering. Numbrilisi muutujaid saab skaleerida, kasutades selliseid tehnikaid nagu standardimine või normaliseerimine. Uusi funktsioone saab luua olemasolevaid funktsioone kombineerides või neile matemaatilisi tehteid rakendades.
Lõpuks tuleb andmed jagada koolitus- ja testimiskomplektideks. Seda tehakse selleks, et hinnata väljaõppinud mudeli toimivust nähtamatutel andmetel. Pandade funktsiooni "train_test_split()" saab kasutada andmete juhuslikuks jagamiseks treening- ja testimiskomplektideks, mis põhinevad kindlaksmääratud suhtel. Oluline on tagada andmete poolitamine viisil, mis säilitab sihtmuutuja jaotuse.
Kokkuvõtteks võib öelda, et Pandase teeki kasutava masinõppemudeli koolitamiseks andmete ettevalmistamise etapid hõlmavad andmete laadimist, andmete puhastamist, andmete teisendamist ja andmete tükeldamist. Need sammud on olulised tagamaks, et andmed on mudeli koolitamiseks sobivas vormingus ja usaldusväärsete tulemuste saamiseks.
Muud hiljutised küsimused ja vastused selle kohta Masinõppes edasijõudmine:
- Millised on masinõppes suurte andmekogumitega töötamise piirangud?
- Kas masinõpe võib anda dialoogilist abi?
- Mis on TensorFlow mänguväljak?
- Kas innukas režiim takistab TensorFlow hajutatud andmetöötluse funktsionaalsust?
- Kas Google'i pilvelahendusi saab kasutada andmetöötluse lahtiühendamiseks salvestusruumist, et ML-mudelit suurte andmetega tõhusamalt treenida?
- Kas Google Cloud Machine Learning Engine (CMLE) pakub automaatset ressursside hankimist ja konfigureerimist ning käsitleb ressursside väljalülitamist pärast mudeli väljaõppe lõpetamist?
- Kas masinõppemudeleid on võimalik suvaliselt suurtes andmekogumites ilma tõrgeteta koolitada?
- Kas CMLE kasutamisel on versiooni loomiseks vaja määrata eksporditud mudeli allikas?
- Kas CMLE saab lugeda Google'i pilvesalvestuse andmeid ja kasutada järelduste tegemiseks konkreetset koolitatud mudelit?
- Kas Tensorflow't saab kasutada sügavate närvivõrkude (DNN) treenimiseks ja järelduste tegemiseks?
Vaadake rohkem küsimusi ja vastuseid jaotisest Masinõppes edasijõudmine