Már-már hagyományos módon a KDNuggets idén is felmérést indít, melyik adatbányászati, analitikai eszközt használják olvasói. Az eredményeken hagyományosan jól szokott szerepelni a RapidMiner és az R is, aminek magyarázatára sok-sok jó narratíva létezik – attól függően ki magyarázza az adatokat. Ebbe a parttalan vitába nem is mennék bele.
Sokkal érdekesebb most számomra az, hogy a felmérésben mennyire kevesen szavaztak a Pythonra. Az elmúlt néhány évben a Python jelentős előretörést könyvelhetett el a data science területén dolgozók között, a Kaggle versenyeket is általában ezen a platformon megírt megoldások nyerik meg. Ennek ellenére a ma leadott szavazatom után meglátott részeredményekből az tűnt ki, hogy nagyon kevesen jelölték meg ezt az eszközt.
Ha korábban nem akartam számháborúzni, akkor itt sem lenne tisztességes. Csupán azt a gondolatomat szeretném felvillantani, hogy az elmúlt időszakban egy jelentős változás történt abban a tekintetben, hogy ki dolgozik az adatok analitikai feldolgozásán. A hagyományos adatbányász szakmán kívülről érkező új data scientist-ek világa egyrészt sokkal programozósabb vagy más esetekben sokkal üzletibb, vizualizáció-központúbb. Az teljes szakmai közösség úgy nőtt meg, hogy a középpontjában nem teljesen ugyanazok a szakembercsoportok állnak, mint korábban.
Ezt az új világot pont nekünk szükséges jobban megérteni, akik már dolgoztak a régebbiben is, hiszen mi emiatt sokkal kevésbé vesszük észre, ha koncepcióváltás történik. Márpedig minden jel arra utal, hogy éppen egy ilyen inflexiós ponton léptünk át nemrég.