Data Analysis with R

Manapság mindenki valamilyen MOOC kurzust hallgat éppen. Sokan már ún. verified certificate tracket választanak, azaz valamennyit áldoznak arra, hogy igazolva legyen, eredményesen elvégezték a kurzust. Szerencsés voltam és én ingyen vághattam bele aUdacity által kínált Data Analysis with R-ba, ennek tapasztalatait összegzem ebben a posztban.

Az első és legfontosabb kérdés egy MOOC esetében, hogy miért fizetünk, ha már fizetünk. A Coursera, az EdX a FutureLearn és a Udacity (hogy csak a nagyobbakat említsem) egy dologban megegyezik; kurzusaik nem akkreditáltak! Mit jelent tehát az, ha verifikálják a tanulót? Azt, hogy megnézte a videókat, megcsinálta az online kvízeket és fizetett. A Udacity abban különleges, hogy habár együttműködik egyetemekkel, náluk a verified certificate teljesen mást jelent. Először szögezzük le, baromi drága, általában 200 USD/hó egy kurzus és minimum két hónap egy-egy MOOC elvégzése. Ellenben kötelező egyszer legalább Google Hangouts-on beszélni a tutorunkkal (mert kapunk ilyet), az egyes leckékben szereplő kvízek és feladatok nem számítanak bele a végső értékelésbe, a hitelesített “papír” megszerzéséhez egy projektet kell elkészítenünk, majd egy online interjú keretében beszélnünk is kell művünkről. Ha menet közben gondunk akad, akkor a tutorunkkal egyeztethetünk időpontot online beszélgetésre, vagy levelet küldhetünk, négy munkanapon belül köteles válaszolni. Ez a módszer szerintem sokkal gyakorlatiasabb és biztosítja, hogy a MOOC-on tanultakat legalább minimálisan képes használni a tanuló valós körülmények között is. A legtöbb Udacity kurzus érdekessége, hogy nem egyetemek ajánlják, de sok esetben nagy cégek (pl. Facebook, Cloudera, Google) kutatói vettek részt az anyag elkészítésében és ezek az arcok gyakran megjelennek a kurzusban is (általában amolyan pihenő videók formájában beszélnek a munkájukról két keményebb anyag között).

A Data Analysis with R nem egy hibátlan kurzus, de annak aki tanult már statisztikát és valamennyire ismeri az R-t ez egy remek anyag az ún. explorarory data analysis és a ggplotmegismerésére. A videók mérte pont optimális, 30 másodperc és 10 perc között változik, ami nekem ideális volt, mert csak amolyan lopott percekben tudtam haladni vele. A feladatok már nem annyira jók. Gyakran tkp el kell olvasnunk egy-egy csomag, vagy függvény dokumentációját, a példákat módosítjuk és meg is oldottuk a feladatot. Sajnos általános feladattípus hogy fejezd be a kódot, majd nyomd meg a “Submit” gombot, de visszajelzést nem kapsz, a kódot nem futtathatod online, ha csak egy karaktert beír az ember, akkor is “Congratulations!” felkiáltással nyugtázza a Udacity ténykedésünket.

udacity_eda.PNG

A projekt igazán izgalmas dolog! Én a prosper dataset mellett döntöttem, mert érdekeltek a hitelek. A követelmények szerint egy felfedező részben pár változót kell megvizsgálni, majd többváltozós plotokkal a közöttük lévő összefüggéseket feltárni, végül három jellemző vizualizációval és egy rövid szöveges elemzéssel zárunk. Mindezt a nagyon egyszerű, kényelmesen használható knttrcsomaggal kell végezni, ami egy remek kis html oldalba ágyazott riportot eredményez. Maga projekt kb 20-30 órát vesz igénybe, nem kell félni, ha visszadobják, akkor részletes megjegyzésekkel teszik és tkp. akárhányszor jelentkezhetünk a javított verzióval, a “bukásnak” nem marad semmi nyoma a Udacity-nál :D A projekt beküldése után hét munkanapon belül értesülünk eredményünkről és ha pozitív az értékelésünk, akkor foglalhatunk magunknak időpontot a projekt interjúra. A végső elbeszélgetés egyik célja, hogy igazoljuk, mi dolgoztunk a projekten, ezért nagyon kíváncsiak arra, hogy miért az adott adathalmazzal dolgozott az ember, hogy látja, mit lehetne javítani még a projekten stb. Ezután egy gyors elégedettségi kérdőív következik, mit szerettél a kurzusban, mit lehetne rajta javítani stb. Az egész nem több 25-30 percnél és a végén meg is mondják, hogy sikerült-e meggyőzni őket arról, hogy te dolgoztál a projekteden. Ezután kb. 5 perc és jön az email, hogy letöltheted a verified certificate-edet – papír nincs. Ellenben a ggplot alapjait, az eda alapelveit megtanulja az ember használni és még bizonyítani is tudja ezt a saját kis projektjével. Annak, aki megengedheti magának, csak ajánlani tudom a Udacity kurzusait, mivel ténylegesen használható tudást lehet megszerezni módszerükkel.

Via: Kereső Világ