Könyvismertető – The Foundations of Statistics: A Simulation-based Approach

Sokakat tántorít el a tény hogy manapság a (számítógépes) nyelvészet bizony nagyon matematizált. Ezen a tényen nem tudunk változtatni, már Eukleidész is megmondta I. Ptolemaiosznak hogy a matematikához nem vezet királyi út. Azonban nem kell félni, az alapos ismeretek a mi területünkön inkább gyakorlatiak (persze el lehet menni egészen “durva” területekre is) és gyakran köthetők alkalmazott problémákhoz. A most ismertetett kötet ebben segít, az alkalmazásra teszi a hangsúlyt és ebben segítségül hívja az R statisztikai programozási nyelvet.

Pár sor a szerzőkről

Talán nem annyira ismertek a kötetek szerzői mint a több R könyvé, ezért nem árt pár szót szólni róluk. Michael Broe evolúció kutató, jelenleg az Ohio State University-n kutat, ami ha furán is hangzik, talán érthetőbb ha elmondjuk még róla hogy Edniburgh-ben szerezte doktori fokozatát, egy erősen interdiszciplináris közegben, itt került kapcsolatba a nyelvevolúciót kutató munkaközösséggel, talán innét is eredetezhető a kladisztikai iránti érdeklődése is. Shravan Vasishth a Potsdami Egyetemen vezeti a nyelvészeti tanszéket és egy nemzetközi viszonylatban is jelentős (ám pici) laboratóriumot ami főleg a pszicholingvisztika terén dolgozik, de a neurolingvisztika felé is nyitottak. Ha nem is olyan ismertek mint pl Baayen vagy Gries, nagyon figyelemre méltó, élvonalbeli kutatók a szerzők. Vasishth eredetileg filológusnak készült és fokozatosan tért át az elméleti nyelvészetre. Ez egyrészt inspiráló lehet másoknak, másrészt nagyban segíti a könyvet hogy a szerző maga is végig ment azon a folyamaton amit sokan átélünk: szeretnénk a matematikát használni egy minket érdeklő probléma jobb megértéséhez azonban nem tudjuk hogyan fogjunk hozzá.

Előzetes technikai megjegyzések
A könyv nagy erénye hogy egyszerűen tálalja az anyagot. Hátránya hogy a kezdők számára talán nem egyértelmű miképp telepíthetik a használt eszközöket és milyen más hasznos programokkal segíthetik munkájukat. Ezért nem árt tisztában lenni azzal hogy mi az R statisztikai programozási nyelv, az emacs szerkesztő és mik használatának alapjai illetve hogy telepíthetjük hozzá az ESS csomagot. Nem árt vetni egy pillantást a LaTeX dokumentum nyelvvel sem, ez a későbbiekben minden nyelvésznek jól jön amúgy. Ha az olvasó nem tudja mit fednek ezek a szavak, keressen rá hogy számítógépére miképp telepítheti ezeket, tegyen egy próbát és csak akkor ruházzon be a kötet megvásárlásába ha ezek nem okoznak gondot.

A kötet honlapján található kód jó, habár néhol eltér a print változat a letölthető kódtól, azonban egyszerű józan ésszel érthető a különbség.

Végre akkor a könyvről
Az első fejezetben elirányítanak minket a szerzők a fent felsorolt eszközök honlapjára hogy saját gépünkön is telepíthessük azokat és egy kis ízelítőt kapunk mire képes az R. Ezután a véletlenszerűség és a valószínűség fogalmával ismerkedhetünk meg. Ezek után a mélyvízibe kerülünk, ami nekem nagyon bejön mivel van alapja rögvest bemutatni hogy mit jelent egy minta megbízhatósága is miképp tesztelhetjük hipotéziseinket, azonban inteném a kezdő olvasót hogy lassan, értve olvassa a könyvet, a feszes tempó nem kedvez az alapos emésztésnek. Két fejezet a hipotézisek teszteléséről egy rövid könyvben sok, a teljes megértéshez kevés, de indulásnak éppen elég ha kellő időt szánunk tanulmányozásukra. Ami ezek után következik azonban már nem egyenletes színvonalú. Az ANOVA tárgyalása alapos és jó, ennek ismerete ma már alap. A bivariáns statisztika és lineáris modellek bemutatásáról szóló hatodik fejezet sajnos alatta marad a többinek, egy kis áttekintés ad a témáról, azonban nem árt más forrásokat is használni ha meg akarjuk érteni a témát. A kevert lineáris modellekről szóló utolsó fejezet pedig nem lehet több egy bevezetésnél, ahogy címe is ígéri. Annak tökéletesen meg is felel, de akár ki is maradhatott volna a kötetből.

Összegezve
A kötet azoknak ajánlható akik elhivatottak, tudnak időt szánni az anyag elsajátítására és nem csak átfutni akarják a lapokat. Mindenképpen szükséges erős felhasználói informatikai ismeretekkel rendelkezni hogy követni tudjuk (oprendszerünkre tudjunk telepíteni szoftvereket, önállóan információt tudjunk keresni használatukról stb.). Ha ezek megvannak, akkor viszont egy átfogó képet kaphat a nyelv iránt érdeklődő olvasó a statisztikai módszerről mely segíthet elindulni a statisztika felfedezésében és egy kis gyakorlati eszköztárat is kapunk amit mindennapi munkánk során is hasznosíthatunk (legyen az kutatás, terepmunka, vagy egyéb adatelemzés).

Via: Könyvismertető – The Foundations of Statistics: A Simulation-based Approach