A tantárgy neve
- magyarul: Földtudományi adatbányászat
- angolul:
Kódja: TTGME7043
Szemeszter: 3. félév
Felelős oktatási egység: Debreceni Egyetem, TTK, Természetföldrajzi és Geoinformatikai Tanszék
Kötelező előtanulmány neve: -
Kódja: -
Követelmény: Kollokvium
Kredit: 2
Oktatás nyelve: magyar
Tantárgyfelelős oktató: Dr. Szabó Szilárd, egyetemi tanár
típus | heti óraszámok | ||||||
---|---|---|---|---|---|---|---|
előadás | gyakorlat | labor | |||||
nappali | x | heti | 1 | heti | 1 | heti | 0 |
levelező | féléves | féléves | féléves |
A kurzus tartalma, témakörei
Az adatbányászat napjaink egyik legfontosabb adatelemzési technikája, mely az alapstatisztikákon és modelleken túllépve statisztikai modelleket alkalmaz nominális és skálaváltozók feldolgozására. A cél automatikus módon a hasznos információ kinyerése nagy adatbázisokból. Az egyik fő csoportot az osztályozás jelenti, melyben hasonlóan a képosztályozáshoz bináris, vagy többosztályos adatok osztályba sorolását végzik el a hallgatók. A másik csoportban a skála típusú adatokkal becslést végeznek többféle algoritmussal. A Big Data elmélet és gyakorlat és adatbányászati módszerek.
A kurzus elméleti részében megtárgyalásra kerülő témakörök: a többváltozós adatelemzés elméleti háttere, a Big Data elmélet; a statisztikai modellek modell-illeszkedési paraméterei, elemszámigénye, feltételei; ANOVA, 2-faktoros ANOVA; többváltozós lineáris analízis, GLM; robosztus regressziós eljárások MA, RMA; robosztus regressziós eljárások: lasso, ridge, elastic net; dimenziócsökkentés ordinációs eljárásokkal: PCA; dimenziócsökkentés ordinációs eljárásokkal: CA, MCA; a Partial Least Square eljárás alkalmazása regresszióban; klaszteranalízis (hierarchikus eljárások); klaszterezés (k-mean klaszterezés, optimális klaszterszám meghatározása, connectivity, Dunn Index, silhouette width); Rndom Forest mint regressziós és mint osztályozó algoritmus; változók fontossági sorrendje (Variable Importance).
A kurzus gyakorlati részében megtárgyalásra kerülő témakörök: a helyes adatmátrix előkészítése Excelben a többváltozós vizsgálatokhoz; az R szoftverkörnyezet bemutatása (nyelv, parancsok, munka könyvtár, adatbeolvasás, dataframe, vector, array, mátrix); alapstatisztikák meghatározása R-ben (ismerkedés a szkriptek felépítésével); lineáris modellek alkalmazása R-ben (lm függvény): hipotézisvizsgálat és regresszió; 2-faktoros ANOVA R-ben; GLM modellek futtatása és interpretációja R-ben; Package-ek az R-ben (lmodel2), robosztus regresszió alkalmazása: MA, RMA, SMA; package-ek az R-ben (glmnet), robosztus regresszió alkalmazása: lasso, ridge, elastic net; PCA futtatása és interpretációja R-ben; Random Forest regresszió; Random Forest osztályozás.
Ajánlott szakirodalom:
- Podani J. 1997. Bevezetés a többváltozós biológiai adatfeltárás rejtelmeibe. Scientia Kiadó, Budapest, 412 p.
- Islam S. 2018. Hands-on: Geospatial Analysis with R and QGIS. Packt Publishing, Birmingham, 347 p.
- Cuesta, H. 2013. Practical Data Analysis. Packt Publishing, Birmingham, 360 p.