nyelvészet – r-projekt.hu R: az ingyenes adatelemző szoftver és statisztikai programozási környezet Fri, 26 Mar 2021 00:15:32 +0000 hu hourly 1 https://wordpress.org/?v=4.8.18 Meetup video: Ingo Feinerer: Distributed Text Mining in R /2012/08/03/meetup-video-ingo-feinerer-distributed-text-mining-in-r/ /2012/08/03/meetup-video-ingo-feinerer-distributed-text-mining-in-r/#comments Fri, 03 Aug 2012 06:14:00 +0000 /?p=198 Continue reading ]]> We started a Vimeo channel where you can watch the talks of the Hungarian Natural Language Processing Meetup.

Ingo Feinerer (TU Vienna): Distributed Text Mining in R from Szamitogepes nyelveszet on Vimeo.

Via: Meetup video: Ingo Feinerer: Distributed Text Mining in R

]]>
/2012/08/03/meetup-video-ingo-feinerer-distributed-text-mining-in-r/feed/ 785
Adatbányászat és R tutorial meetup /2012/05/25/adatbanyaszat-es-r-tutorial-meetup/ /2012/05/25/adatbanyaszat-es-r-tutorial-meetup/#comments Fri, 25 May 2012 17:56:00 +0000 /?p=201 Continue reading ]]> Az első sikeres meetup után egyből két új eseményt köszönthetünk! – A témák bár szűkebbek, de annál mélyebbnek ígérkeznek. Az egyik az adatbányászattal foglalkozik, mint válasz a felhalmozódott, minden eddigi mennyiséget meghaladó dokumentumáradatra, míg a másik, az R programozási nyelv és annak tm csomagját bemutató tutorial lesz. – Várunk minden érdeklődőt!

Az első meetup sikerén felbuzdulva újabb szervezésbe kezdtünk. Zolinak hála két új eseményt is hirdethetünk. A két esemény bár összefüggő, de külön-külön is nyugodtan látogatható. Kinek-kinek melyik nyeri el jobban a tetszését. – De ezúttal az előadások angol nyelven folynak.

Az R programozási nyelv és a tm csomagja

R tm hands-on tutorial by Ingo Feinerer névre keresztelt összejövetel nem hagyományos esemény. Ingo Feinerer nevével fémjelzett tutorial az érdeklődőket egy alap, ismétlő R tutorial után egyből az R programozási nyelv és a Text Mining ™ csomag mélyébe láthatunk be az egyik szerzője, Ingo Feinerer-re segítségével.

Az előadásról bővebben az esemény oldalán tájékozódhattok.

Distributed Text Mining in R

A második eseményen Ingo Feinerer előadását hallgathatjuk meg az elosztott szövegbányászati kutatásokról az R programozási nyelvben. Ennek lehetőségeiről, hátrányairól és hogyanjairól tudhatnak meg többet az érdeklődők.

Az előadásról bővebben az esemény oldalán tájékozódhattok.

Összegzés

Az eseményekre várunk mindenkit, aki a téma iránt érdeklődik vagy aktívan tevékenykedik benne. Az események Július 24-én, délelőtt 10-től és délután 7-től kezdődnek a Colabs házban. Kérjük, előzetesen iratkozzatok fel a meetup oldalon, hogy tudjuk, hogy hány fővel számolhatunk.

Via: Adatbányászat és R tutorial meetup

]]>
/2012/05/25/adatbanyaszat-es-r-tutorial-meetup/feed/ 714
Legyél te is számítógépes nyelvész – tíz év alatt /2011/05/03/legyel-te-is-szamitogepes-nyelvesz-tiz-ev-alatt/ /2011/05/03/legyel-te-is-szamitogepes-nyelvesz-tiz-ev-alatt/#comments Tue, 03 May 2011 08:31:00 +0000 /?p=207 Continue reading ]]> Úgy néz ki hogy májusban megszaporodnak a levelek melyekben arról érdeklődnek a kedves olvasók hogy miképp is válhat valaki számítógépes nyelvésszé. Ahhoz hogy valaki szakértő legyen egy területen, kb tíz év gyakorlás és gyakorlat szükséges (l. Norvig Teach Yourself Programming esszéjét vagy Mérő László Mindenki másképp egyforma könyvét), rossz hír hogy az interdiszciplináris területeken talán több is. Jó hír viszont hogy ezt egyáltalán nem kell úgy érteni hogy ennyi időt kell az iskolapadban eltölteni (habár ha egy PhD-t bevállal valaki, akkor nyolc kellemes évet tölthet el a felsőoktatásban – talán nem véletlenül). Tovább bonyolítja a helyzetet hogy a számítógépes nyelvészet területére különböző hátterű emberek érkeznek ezért nincs egységes recept. Blogunkon megpróbálunk olyan forrásokat is bemutatni amik segíthetnek az érdeklődőknek, most ezeket szedegettem össze és megpróbáltam egy egységes keretbe foglalni hogy ki-ki megtalálja a maga forrásait útja elkezdéséhez.

Előzetes megjegyzések

Nagyon sok dologgal fogsz találkozni ebben a posztban. És ez csak a minimum! Nyilván valamelyik területen van már tapasztalatod ha ide elvetődtél, és ezen a területen gyorsabban fogsz haladni. ha így van, félig nyert ügyed van! A többire viszont időt kell áldoznod. Fókuszálj egy-két területre és ne add fel. Az önismeret elengedhetetlen, önállóan feldolgozni egy-egy témát nagyon nehéz! Körültekintően válaszd ki melyik forrással kezded, és ha elakadsz ne add fel! Ha túl nehéznek találod az egyik könyvet, keress magadnak egy olyat ami egyszerűbben tálalja a problémát, vagy nézd meg milyen előismeretek hiányoznak a repertoárodból. Merj félbehagyni egy könyvet ha túl nehéz! Nem gáz elővenni egy középiskolai könyvet és átnézni! Tanuld meg beosztani az idődet! (Ebben segíthet az Pomodoro technika, amiről itt és itt olvashatsz) Ha még nem tudsz angolul legalább zökkenőmentesen olvasni, állj meg és gyakorolj! Sokan hiszik hogy a nyelvészek sok nyelvet beszélnek, ám ez nem igaz. De angolul ma már tudni kell mindenkinek! Minden további nyelv fontos, gazdasági, tudományos, és művelődési szempontból is – ha időd engedi és lehetőséged van rá, tanulj meg az angol mellé még egy-két másik idegen nyelvet is.
Nyelvészet – csak röviden!
Már több mint egy éve írtam ezt a posztot – ez volt az első kérésre írt írásom itt. Tök mindegy hogy milyen háttérrel érkezel a területre, valamennyi nyelvészeti tudás szükséges. Ebben az ismertetőben ingyenes anyagokat is ajánlunk, de nem árt pár könyvbe beruházni.
Nem szabad félni a matektól!
Ha valaki szeret gondolkodni, akkor nincs oka félni a matematikától! Kezdetnek és szemléletformálásnak Enikő Logika és tudományelmélet mindenkinek írásában bemutatott népszerűsítő tudományos műveket ajánlom. Egy pár fejtörő és paradoxon mindenkinek érthető módon bemutatva elég a kezdethez.
Ha ez megvan, akkor érdemes a diszkrét matematikával és logikával folytatni. Erről Logika mindenkinek I és II írásaim, valamint Dávid Matematika és logika nyelvészeknek posztja szólt bővebben.
És a statisztikáról se feledkezzünk meg
A statisztika és a valószínűségszámítás szintén elengedhetetlen terület. Nem szabad azt hinni hogy fontosabb, vagy éppen kevésbé fontosabb mint a diszkrét matek! Ha a végén a sztochasztikus módszer híve is leszel, akkor sem kerülheted el a diszkrét matekok, hiszen az az algoritmusok és a számításelmélet megértéséhez szükséges. Ha már van némi alapod a formális gondolkodás területén, csak akkor rohamozd meg a statisztikát! Kezdésnek nagyon jók az Enikő által bemutatott Head First Statistics és Head First Data Analysis kötetek. További forrásokért ajánlom Statisztikai túlélőkészlet posztomat, ahol már egy kicsit komolyabb anyagokat is bemutattam, ill. ingyenes forrásokat is találhatsz.
Itt nagyon hamar elérkezünk a programozáshoz, az R nyelv ismerete manapság elengedhetetlen egy számítógépes nyelvész számára. Magát a nyelvet R, de miért is használjam I és II posztjaimban mutattam be. Sok remek könyv van a piacon amiből tanulhatsz, a The Foundations of Statistics: A Simulation-based Approach kötetet mi is bemutattuk.
A kemény dió – programozás és számítástudomány
A számítógépes nyelvésze lényege az hogy az elméleteidet ellenőrizhető, futtatható formában tudod megfogalmazni. Ehhez szükséges a programozás. Ideális esetben elég lenne egy nyelv ismerete, de hát ettől még messze vagyunk. A fent már említett R nyelvet használjuk az adatok feltérképezéséhez. Az adatok manipulálását azonban a Python nyelvvel szoktuk általában végezni, ennek ismerete alap és nagyon jól jön mivel a szakma gyakorlati oldalát bemutató alapkönyvek is ezt használják. Ezekről a Head First Programming és Head First Python könyveket bemutató írás végén találsz infot.
A logikai programozás paradigmája nem túl népszerű manapság, de a számítógépes nyelvészek szeretik, mivel könnyen lehet prototípust készíteni a nyelvben. Ha valaki biztos alapokat akar és szeretné látni az elméleti hátteret is a legelterjedtebb eljárások mögött, az nem elégedhet meg a Python posztban említett nltk-val! Ebben viszont a Logikai programozás nem programozóknak posztunk segít eligazodni.
Különböző okok miatt (amiket itt nem részletezünk, mert nem kezdőbarát okok), egyre jobban terjed a funkcionális paradigma. Ezzel is meg kell ismerkednie annak aki számítógépes nyelvészetre adja a fejét! Funkcionális programozás posztunk segít elindulni ezen a területen.
Amiről még mi sem beszéltünk
A biztos alapok megléte előfeltétele annak hogy megbirkózz olyan dolgokkal mint pl. algoritmusok és adatstruktúrák – ami tkp. a számítógépes nyelvészeti munka lényege! Az különböző adatbázisok ismerete is elengedhetetlen ahhoz hogy jó szakember legyen belőled. És a legvégén, nem árt foglalkozni a szakma metodológiai, filozófiai kérdéseivel és etikai vonatkozásaival sem, legalább érintőlegesen. A jövőben igyekszünk ezeket a területeket is bemutatni legalább egy-egy könyvismertető keretében.

Via: Legyél te is számítógépes nyelvész – tíz év alatt

]]>
/2011/05/03/legyel-te-is-szamitogepes-nyelvesz-tiz-ev-alatt/feed/ 629
Az adatok tudománya és a nyelvtudomány – olvasnivaló /2010/09/04/az-adatok-tudomanya-es-a-nyelvtudomany-olvasnivalo/ /2010/09/04/az-adatok-tudomanya-es-a-nyelvtudomany-olvasnivalo/#comments Sat, 04 Sep 2010 16:56:00 +0000 /?p=214 Continue reading ]]> Sokan kérdezték az előző poszt kapcsán hogy hogyan is indulhatnak el “data science” ügyben. Itt egy kis összefoglaló következik, mit érdemes olvasni, merre érdemes keresgetni, és egy kicsit ajánlani fogom korábbi posztjaimat is. Tehát most sorra vesszük hogy egy nyelvész mit tehet hogy 1) betekintést nyerhessen az adatok tudományába 2) eszköztárába illeszthesse a nyelvi adatok elemzésére alkalmas módszereket.

Az alapok
A matekundort el kell felejteni! Az adatok tudományának részét képezi az alkalmazott statisztika, ezért biztos matematikai alapokkal kell rendelkeznie annak aki a területre merészkedik. Mivel a nyelvészek általában diszkrét matematikával ismerkednek, egy abszolút kezdőnek érdemes először alaposan átvenni az alapokat, amiben remélem segítenek korábbi posztjaim.

Ha már van egy kis alapunk, akkor jöhet a statisztika. Erről is írtam már párszor, érdemes átnézni ezek is:

Nem árt ha megtanulsz programozni:

Egy kis vizualizációt is magadra kell szedned, például a Processing segítségével, amiről itt olvashatsz:

Érdemes megismerkedned a ManyEyes használatával is:

És nem árt a statisztikát összekötni a kódolással és a vizualizációval, szóval az R megkerülhetetlen.

Ha a nyelvészettel is meg kell ismerkedned, akkor érdemes itt kezdened, de valószínű hogy te ezt már tudod. Az adatok tudománya adatok nélkül egész hülyén nézne ki, érdemes elsajátítani hogyan gyűjthetünk adatokat, miképp kezeljük azokat és mit csinálhatunk velük:

MapReduce
A legelterjedtebb MapReduce implementáció a Hadoop

Ehhez kapcsolódik, szöveggel foglalkozó nyelvészek számára kötelezően:

Habár nagyon jó dolog a Hadoop, szerintem kezdőknek nehéz. Habár ez csak a saját véleményem, szerintem sokkal egyszerűbb CouchDB-vel kezdeni (vagy éppen MongoDB-ve is lehet kezdeni). Ha megismerkednél vele, a legjobb pont itt van:

Vizualizáció
Sajnos nincs sok információ arról miként is prezentálhatjuk a nyelvészeti analízis során szerzett adatokat. Itt csak ajánlok egy könyvet, a Beautiful Visualization kötet sok érdekes tanulmányt tartalmaz (a legrelevánsabba wordle bemutatása számunkra). A Processing mellett érdemes még megismerkedni a Protovis JavaScript framework-kel is.

Sajnos nem tudok ajánlani egy konkrét forrást, magam is lassan szedegettem össze apránként az infót. A következő posztban megpróbálom bemutatni mire jutottam, addig is jó olvasgatást!

Via: Az adatok tudománya és a nyelvtudomány – olvasnivaló

]]>
/2010/09/04/az-adatok-tudomanya-es-a-nyelvtudomany-olvasnivalo/feed/ 570