Az adatok tudománya és a nyelvtudomány – olvasnivaló

Sokan kérdezték az előző poszt kapcsán hogy hogyan is indulhatnak el “data science” ügyben. Itt egy kis összefoglaló következik, mit érdemes olvasni, merre érdemes keresgetni, és egy kicsit ajánlani fogom korábbi posztjaimat is. Tehát most sorra vesszük hogy egy nyelvész mit tehet hogy 1) betekintést nyerhessen az adatok tudományába 2) eszköztárába illeszthesse a nyelvi adatok elemzésére alkalmas módszereket.

Az alapok
A matekundort el kell felejteni! Az adatok tudományának részét képezi az alkalmazott statisztika, ezért biztos matematikai alapokkal kell rendelkeznie annak aki a területre merészkedik. Mivel a nyelvészek általában diszkrét matematikával ismerkednek, egy abszolút kezdőnek érdemes először alaposan átvenni az alapokat, amiben remélem segítenek korábbi posztjaim.

Ha már van egy kis alapunk, akkor jöhet a statisztika. Erről is írtam már párszor, érdemes átnézni ezek is:

Nem árt ha megtanulsz programozni:

Egy kis vizualizációt is magadra kell szedned, például a Processing segítségével, amiről itt olvashatsz:

Érdemes megismerkedned a ManyEyes használatával is:

És nem árt a statisztikát összekötni a kódolással és a vizualizációval, szóval az R megkerülhetetlen.

Ha a nyelvészettel is meg kell ismerkedned, akkor érdemes itt kezdened, de valószínű hogy te ezt már tudod. Az adatok tudománya adatok nélkül egész hülyén nézne ki, érdemes elsajátítani hogyan gyűjthetünk adatokat, miképp kezeljük azokat és mit csinálhatunk velük:

MapReduce
A legelterjedtebb MapReduce implementáció a Hadoop

Ehhez kapcsolódik, szöveggel foglalkozó nyelvészek számára kötelezően:

Habár nagyon jó dolog a Hadoop, szerintem kezdőknek nehéz. Habár ez csak a saját véleményem, szerintem sokkal egyszerűbb CouchDB-vel kezdeni (vagy éppen MongoDB-ve is lehet kezdeni). Ha megismerkednél vele, a legjobb pont itt van:

Vizualizáció
Sajnos nincs sok információ arról miként is prezentálhatjuk a nyelvészeti analízis során szerzett adatokat. Itt csak ajánlok egy könyvet, a Beautiful Visualization kötet sok érdekes tanulmányt tartalmaz (a legrelevánsabba wordle bemutatása számunkra). A Processing mellett érdemes még megismerkedni a Protovis JavaScript framework-kel is.

Sajnos nem tudok ajánlani egy konkrét forrást, magam is lassan szedegettem össze apránként az infót. A következő posztban megpróbálom bemutatni mire jutottam, addig is jó olvasgatást!

Via: Az adatok tudománya és a nyelvtudomány – olvasnivaló

27 Responses to Az adatok tudománya és a nyelvtudomány – olvasnivaló

  1. Pingback: Buy viagra on line

  2. Pingback: cialis 5mg

  3. Pingback: how much is cialis

  4. Pingback: cialis pills

  5. Pingback: buy cialis online

  6. Pingback: Viagra best buy

  7. Pingback: Sale viagra

  8. Pingback: is there a generic cialis available?

  9. Pingback: cialis canada

  10. Pingback: viagra cialis

  11. Pingback: generic cialis cost

  12. Pingback: cheap viagra

  13. Pingback: viagra for sale

  14. Pingback: online pharmacy viagra

  15. Pingback: otc ed pills

  16. Pingback: erection pills

  17. Pingback: medicine for impotence

  18. Pingback: online pharmacy

  19. Pingback: Get cialis

  20. Pingback: buy levitra

  21. Pingback: vardenafil 10mg

  22. Pingback: best online casino real money

  23. Pingback: real online casino

  24. Pingback: viagra 100mg

  25. Pingback: online casino slots no download

  26. Pingback: real money casino online usa

  27. Pingback: payday loans

Comments are closed.