Az adatok tudománya és a nyelvtudomány – olvasnivaló

Sokan kérdezték az előző poszt kapcsán hogy hogyan is indulhatnak el “data science” ügyben. Itt egy kis összefoglaló következik, mit érdemes olvasni, merre érdemes keresgetni, és egy kicsit ajánlani fogom korábbi posztjaimat is. Tehát most sorra vesszük hogy egy nyelvész mit tehet hogy 1) betekintést nyerhessen az adatok tudományába 2) eszköztárába illeszthesse a nyelvi adatok elemzésére alkalmas módszereket.

Az alapok
A matekundort el kell felejteni! Az adatok tudományának részét képezi az alkalmazott statisztika, ezért biztos matematikai alapokkal kell rendelkeznie annak aki a területre merészkedik. Mivel a nyelvészek általában diszkrét matematikával ismerkednek, egy abszolút kezdőnek érdemes először alaposan átvenni az alapokat, amiben remélem segítenek korábbi posztjaim.

Ha már van egy kis alapunk, akkor jöhet a statisztika. Erről is írtam már párszor, érdemes átnézni ezek is:

Nem árt ha megtanulsz programozni:

Egy kis vizualizációt is magadra kell szedned, például a Processing segítségével, amiről itt olvashatsz:

Érdemes megismerkedned a ManyEyes használatával is:

És nem árt a statisztikát összekötni a kódolással és a vizualizációval, szóval az R megkerülhetetlen.

Ha a nyelvészettel is meg kell ismerkedned, akkor érdemes itt kezdened, de valószínű hogy te ezt már tudod. Az adatok tudománya adatok nélkül egész hülyén nézne ki, érdemes elsajátítani hogyan gyűjthetünk adatokat, miképp kezeljük azokat és mit csinálhatunk velük:

MapReduce
A legelterjedtebb MapReduce implementáció a Hadoop

Ehhez kapcsolódik, szöveggel foglalkozó nyelvészek számára kötelezően:

Habár nagyon jó dolog a Hadoop, szerintem kezdőknek nehéz. Habár ez csak a saját véleményem, szerintem sokkal egyszerűbb CouchDB-vel kezdeni (vagy éppen MongoDB-ve is lehet kezdeni). Ha megismerkednél vele, a legjobb pont itt van:

Vizualizáció
Sajnos nincs sok információ arról miként is prezentálhatjuk a nyelvészeti analízis során szerzett adatokat. Itt csak ajánlok egy könyvet, a Beautiful Visualization kötet sok érdekes tanulmányt tartalmaz (a legrelevánsabba wordle bemutatása számunkra). A Processing mellett érdemes még megismerkedni a Protovis JavaScript framework-kel is.

Sajnos nem tudok ajánlani egy konkrét forrást, magam is lassan szedegettem össze apránként az infót. A következő posztban megpróbálom bemutatni mire jutottam, addig is jó olvasgatást!

Via: Az adatok tudománya és a nyelvtudomány – olvasnivaló