Könyvismertető: Data Analysis with Open Source Tools

Az adatelemzés lassan de biztosan a (számítógépes) nyelvészeti munka részévé válik, azonban sajnos még nincs külön kialakult szakirodalma a területnek. Janert könyve azonban nagyon hasznos technikákkal és ami még fontosabb szemléletmóddal gazdagítja az olvasót és egy kis kreativitással ami területünkre is alkalmazhatóak a bemutatott módszerek. Azonban alapos előismeretek szükségesek ahhoz hogy haszonnal tudjuk forgatni a kötetet.

A könyv hátsó borítóján a figyelmeztetést – “Previous programming experience is recommended” – nagyon komolyan kell venni! Nem kell megijedni, nem kell hackernek lenni ahhoz hogy megérthesse az ember a könyveben közölt kódrészleteket, sok dolgot menet közben is meg lehet tanulni, azonban biztos alapokra szüksége van – pl. ha valaki szorgalmasan végig dolgozta az nltk könyvet, programozás terén felkészülten vághat bele a kötetbe.
Azonban a szükséges előismeretek listája ennél hosszabb. Két külön függelék foglalkozik ezzel, nem mehetünk el tehát szó nélkül a téma mellett. Kezdjük a legegyszerűbbel, a technikai alapokkal. Az Appendix C, Working with Data részben Janert végigveszi hogy milyen tulajdonságokkal rendelkezik a jó adatelemző. Ezek egy része csak a tapasztalattal jön meg (pl. a kommunikációs készség ténylegesen csak munka közben fejleszthető a tapasztalatok alapján), más részük pedig sok-sok gyakorlást igényel. Szigorú értelemben nem szükséges a könyvhöz, de nem véletlenül említi a szerző a Unix/Linux rendszerek ismeretét. Ha nem csak elolvasni/megtanulni akarod a könyvben tárgyaltakat, akkor saját kis projekteket kell kitalálnod, magadnak kell adatokat be szerezned, kitisztítanod és feldolgoznod. Ehhez a legjobb környezet a Linux, ezért ha a bash eszközeit nem ismered minimális szinten, jobb ha végigdolgozol egy Linux tutorialt (a net tele van velük!). Fordíts különös figyelmet a reguláris kifejezésekre (regex)! Ebben a részben is kiemeli Janret hogy egy szkript nyelv ismerete elengedhetetlen, legyen ez a Python praktikus okok miatt.
Az első függelékben Programming Environments for Scientific Computation and Data Analysis a különböző nyílt és zárt forráskódú eszközöket veszi sorra a szerző és megindokolja hogy miért döntött a Python és R nyelvek mellett. Habár a kötetben hangsúlyosabb a Python nyelv és annak ismerete elengedhetetlen hogy fel tudd dolgozni, az R nyelvel is jó megismerkedni mielőtt belevágsz a kalandba!
Az Appendix B Results from Calculus foglalkozik a matematikai háttérrel. Ezt akkor is nézd át ha amúgy jó vagy matekból!!! Ha függvény vagy a limit fogalma idegenül hangzik, a trigonometria alapjai sem sejlenek, integrálni és deriválni nem tudsz vagy már nem emlékszel arra hogyan kell, akkor nem vagy felkészült a könyvre! Nem kell matematikusnak lenni ezek megértéséhez, viszont hogy mi-mi csoda feltétlenül értened kell. Habár nem esik szó róla, a statisztika ismerete is szükséges, mivel az alapokról nem esik sok szó a kötetben, így arra is szánj egy kis időt hogy átnézd a legfontosabb alapfogalmakat!
Ha ezekkel megvagy, akkor élmény lesz a kötet, garantálom! Ha be akarom lőni a szintjét, akkor a bevezető könyvek felett, de a szigorúan elméleti művek alatt van valahol, amolyan erős haladónak mondanám, de nagyon emészthető, gyakorlatias szempontokat szemelőtt tartó, átgondoltan építkező a mű.
A tizenkilenc fejezet kb arányosan négy részre van bontva, minden részt egy összegző fejezet zár. Az első és az utolsó fejezetek kivételével mindegyik egy workshop résszel zárul, ami segít konszolidálni a tanultakat és működés közben látni az egyes módszereket. Az első részben a grafikus felfedezéssel ismerkedhetünk meg, a második a modellezésbe vezet be, a harmadik az adatbányászattal foglalkozik végül a negyedik részben esettanulmányokkal találkozhatunk. Nekem ez az utolsó rész különösen tetszett, hiszen betekintést enged abba hogy mire is jó ez az egész adatelemzés és segít abban hogy a külön tárgyalt részek között meglássuk az összefüggéseket.
Nagyon fontos hogy aktívan olvasd a könyvet. Ez nem egy regény! Meg kell állni, sokszor kell a bőséges “Further readings” részhez fordulni hogy egy-egy dolgot jobban megértsünk máshonnét. Egyben ez a kötet legnagyobb gyengéje! Feltételezi hogy az olvasónak van egy jó kis könyvtára! Ha valaki nem diák, vagy kutató és nincs hozzáférése egy jó (idegennyelvű) szakgyűjteményhez, hamar elveszettnek érezheti magát ha csak a kötetre támaszkodik! Ha nincs lehetőséged könyvtárazni, akkor nem éri meg a könyv megvásárlásába fektetni a nehezen megkeresett pénzed! Ha nehézséget okoz neked hogy egy-egy fejezet végén tovább gondold a tanultakat és egy saját projektet is megcsinálj, akkor szintén nem a te könyved ez. Szeretném hangsúlyozni hogy technikai könyveket nem passzívan olvasunk, nem csak megoldjuk a feladatokat, hanem tovább kell gondolnunk – erre jók a saját projektek. Csak akkor mondhatod el hogy IGAZÁN ÉRTED amit olvastál, ha el tudsz vonatkoztatni a példáktól és alkalmazni tudod ismereteidet egy olyan probléma megoldására amit még nem oldott meg előtted senki és nem tudod megnézni sehol a megoldást.

Via: Könyvismertető: Data Analysis with Open Source Tools

54 Responses to Könyvismertető: Data Analysis with Open Source Tools

  1. Pingback: Low price viagra

  2. Pingback: cialis cost

  3. Pingback: prices of cialis

  4. Pingback: is cialis generic

  5. Pingback: how to get cialis

  6. Pingback: Best price viagra

  7. Pingback: Buy viagra in canada

  8. Pingback: cialis pill

  9. Pingback: canadian pharmacy cialis 20mg

  10. Pingback: is there a generic cialis available?

  11. Pingback: cialis from canada

  12. Pingback: cheap viagra

  13. Pingback: viagra for sale

  14. Pingback: viagra 50mg

  15. Pingback: ed pills for sale

  16. Pingback: erectile dysfunction medicines

  17. Pingback: erectile dysfunction medicines

  18. Pingback: canadian online pharmacy

  19. Pingback: cialis visa

  20. Pingback: levitra generic

  21. Pingback: vardenafil price

  22. Pingback: online casinos for usa players

  23. Pingback: legitimate online slots for money

  24. Pingback: what is viagra

  25. Pingback: live casino slots online

  26. Pingback: real money casino games

  27. Pingback: generic cialis at walmart

  28. Pingback: payday loans online

  29. Pingback: pay day loans

  30. Pingback: installment loans

  31. Pingback: viagra prescription

  32. Pingback: slot games online

  33. Pingback: best real money online casinos

  34. Pingback: cialis internet

  35. Pingback: oliver

  36. Pingback: glinda

  37. Pingback: best real money online casinos

  38. Pingback: 5 mg cialis

  39. Pingback: buy cialis

  40. Pingback: new cialis

  41. Pingback: 5 mg cialis

  42. Pingback: chumba casino

  43. Pingback: casino games win real money

  44. Pingback: casino game

  45. Pingback: online casino games for real money

  46. Pingback: viagra price

  47. Pingback: cheap viagra

  48. Pingback: canadian pharmacy viagra

  49. Pingback: tadalafil reviews

  50. Pingback: generic cialis online

  51. Pingback: generic cialis reviews

  52. Pingback: play for real online casino games

  53. Pingback: casino

  54. Pingback: www.jueriy.com

Comments are closed.