Földtudományi adatbányászat

A tantárgy neve

  • magyarul: Földtudományi adatbányászat
  • angolul: 

Kódja: TTGME7043
Szemeszter: 3. félév
Felelős oktatási egység: Debreceni Egyetem, TTK, Természetföldrajzi és Geoinformatikai Tanszék
Kötelező előtanulmány neve: -
Kódja:
-
Követelmény: Kollokvium
Kredit: 2
Oktatás nyelve: magyar
Tantárgyfelelős oktató: Dr. Szabó Szilárd, egyetemi tanár

típus heti óraszámok
előadás gyakorlat labor
nappali x heti 1 heti 1 heti 0
levelező   féléves   féléves   féléves  

A kurzus tartalma, témakörei

Az adatbányászat napjaink egyik legfontosabb adatelemzési technikája, mely az alapstatisztikákon és modelleken túllépve statisztikai modelleket alkalmaz nominális és skálaváltozók feldolgozására. A cél automatikus módon a hasznos információ kinyerése nagy adatbázisokból. Az egyik fő csoportot az osztályozás jelenti, melyben hasonlóan a képosztályozáshoz bináris, vagy többosztályos adatok osztályba sorolását végzik el a hallgatók. A másik csoportban a skála típusú adatokkal becslést végeznek többféle algoritmussal. A Big Data elmélet és gyakorlat és adatbányászati módszerek.

A kurzus elméleti részében megtárgyalásra kerülő témakörök: a többváltozós adatelemzés elméleti háttere, a Big Data elmélet; a statisztikai modellek modell-illeszkedési paraméterei, elemszámigénye, feltételei; ANOVA, 2-faktoros ANOVA; többváltozós lineáris analízis, GLM; robosztus regressziós eljárások MA, RMA; robosztus regressziós eljárások: lasso, ridge, elastic net; dimenziócsökkentés ordinációs eljárásokkal: PCA; dimenziócsökkentés ordinációs eljárásokkal: CA, MCA; a Partial Least Square eljárás alkalmazása regresszióban; klaszteranalízis (hierarchikus eljárások); klaszterezés (k-mean klaszterezés, optimális klaszterszám meghatározása, connectivity, Dunn Index, silhouette width); Rndom Forest mint regressziós és mint osztályozó algoritmus; változók fontossági sorrendje (Variable Importance).

 

A kurzus gyakorlati részében megtárgyalásra kerülő témakörök: a helyes adatmátrix előkészítése Excelben a többváltozós vizsgálatokhoz; az R szoftverkörnyezet bemutatása (nyelv, parancsok, munka könyvtár, adatbeolvasás, dataframe, vector, array, mátrix); alapstatisztikák meghatározása R-ben (ismerkedés a szkriptek felépítésével); lineáris modellek alkalmazása R-ben (lm függvény): hipotézisvizsgálat és regresszió; 2-faktoros ANOVA R-ben; GLM modellek futtatása és interpretációja R-ben; Package-ek az R-ben (lmodel2), robosztus regresszió alkalmazása: MA, RMA, SMA; package-ek az R-ben (glmnet), robosztus regresszió alkalmazása: lasso, ridge, elastic net; PCA futtatása és interpretációja R-ben; Random Forest regresszió; Random Forest osztályozás.

Ajánlott szakirodalom:

  • Podani J. 1997. Bevezetés a többváltozós biológiai adatfeltárás rejtelmeibe. Scientia Kiadó, Budapest, 412 p.
  • Islam S. 2018. Hands-on: Geospatial Analysis with R and QGIS. Packt Publishing, Birmingham, 347 p.
  • Cuesta, H. 2013. Practical Data Analysis. Packt Publishing, Birmingham, 360 p.
Legutóbbi frissítés: 2023. 06. 19. 11:53