A következő félévben különösen erős hangsúlyt kap a BME-n való oktatásunk: két új tárggyal bővül a kínálatunk, ami így lényegében egy data science oktatási csomagnak is tekinthető.
Mielőtt bemutatom mit lehet a tárgyak keretei között megtanulni előrebocsájtom, hogy a tárgyak címei a legtöbb esetben eléggé esetlenek, mint a legtöbb tárgy neve a Műegyetem Villanykarán. Jó hír viszont, hogy a tárgyat lényegében bármelyik Műegyetemi polgár felveheti (kicsit bonyolultan más egyetemek hallgatói is), sőt, ha nagyon lelkes valaki, és egyeztet velünk, akkor külsős kollégákat is szívesen látunk.
Ebben a tárgyban a grafikus felületű, adatfolyam szemléletű adatbányászati szoftvereket mutatjuk be, majd a hallgatók ezekkel az eszközökkel adatbányászati feladatokat oldanak meg. Részletesen meg lehet ismerkedni a tárgy keretei között a SPSS Modelerrel (régi Clementine), SAS Enterprise Guide, Miner, RapidMiner megoldásaival, de várhatóan kitérünk MS SQL Server Analysis Services, Oracle Data Mining, illetve a KNIME megoldásaira is.
Aki ezt a tárgyat elvégzi, az önállóan képes lesz kisebb-nagyobb adatbányászati feladatok megoldására, megérti hogyan lehet hatékony prediktív analitikai modelleket létrehozni. A beadandó házifeladatokat egy független adathalmazon visszamérve versenyeztetjük, amit a hallgatók külön nagyon élvezni szoktak. Az órán előadott elméleti részeket egyből ki is próbáljuk a számítógépterem gépein.
Ahogy az előző tárgy a grafikus felületen történő adatelemzésre koncentrál, ez a tárgy az adatelemzés során használt legpraktikusabb programozási nyelveket és eszközöket mutatja be a hallgatóknak. Az awk-től indulunk, használni fogjuk az R és a SAS Base nyelveket, áttekintjük a Python alatt elérhető gépi tanulási könyvtárakat, míg végül néhány speciális hálózatelemzési programcsomag kerül sorra.
Itt is az elméleti oktatáshoz közvetlenül kapcsolódó gyakorlati feladatokat oldunk meg az órán, így a tárgyat sikeresen elvégző kollégák az adatközpontú programozásban jelentős jártassághoz jutnak. Az ilyen jellegű fejlesztői képességek szerintem létfontosságúak egy data scientist számára, ha egy mondatban kellene elmondanom mivel több egy ilyen szakember egy adatbányásznál, akkor ezt emelném ki elsősorban.
‘Big Data’ elemzési eszközök nyílt forráskódú platformokon
Idén a Műegyetemen is megjelentek az első dedikált big data tárgyak is, amiből mi egy heti egy alkalmas tárggyal vesszük ki a részünk. Lényegében a nyílt forráskodú platformokra épülő big data architektúra részleteit tanítjuk meg, központi szerephez a Hadoop és a rá épülő különböző technológiák jutnak.
A téma jellegéből adódóan itt a kapcsolódó feladatokat a hallgatók az egyetemi Hadoop klaszterünkön fogják elvégezni, így az órán elhangzottak konkrét élménnyé tudnak érni a felkészülés során. A tárgy fő előadója Prekopcsák Zoltán kollégánk lesz, aki többször bebizonyította már, hogy hazai szinten egyedülálló rálátása van erre a technológiai területre.
A tárgy után érdeklődőknek figyelmébe ajánljuk a BME egy másik tanszékének új big data tárgyát is, ami a területhez kapcsolódó elemzési feladatokat koncentrál (link).