Šikovný ajťák vás prokoukne lépe než vaši nejbližší

MAGAZÍN - Magazín autor: Kateřina Doležalová

Termín data mining dnes často vyvolává negativní konotace. Nepředstavuje ale nelegální hromadění osobních dat: jde o složitou výpočetní disciplínu založenou na analýze.

Mark Zuckerberg

Mark Zuckerberg,zdroj: Profimedia.cz

Vědci díky data miningu získávají ze vstupních dat informace, které v nich nejsou explicitně vepsány. Příkladem může být známá analýza facebookových lajků, jejímž prostřednictvím dokáží odborníci odhalit vaši osobnost. Čím více lajků, tím přesnější obrázek. Od tří set lajků výše vás znají lépe než vaši nejbližší.

Data mining není prosté sosání údajů z útrob internetu. Jistě, podmínkou je databáze, ale především jde o analytický proces vyhodnocování obrovského množství dat. To může sloužit několika účelům. V dnešní době se hojně skloňuje personalizovaná reklama na poli marketingu. Není to ale jediné využití. Analytické procesy z rozsáhlých databází mohou sloužit takzvaně bohulibějším účelům, než je inzerce.

Data mining jako disciplína pochází z 90. let minulého století. Dříve byl označován jako jedna z fází oboru dobývání znalostí z databází. V současnosti se již názvy často překrývají.

Zjednodušeně řečeno obsahuje data mining tři fáze: přípravu dat, vlastní dobývání znalostí (aplikace analytických metod) a interpretaci zjištěných dat. Metodik a úloh je několik druhů a každá se hodí pro jiný obor a pro jiné cíle. Dataminingové metody se již používají ve finančnictví (při rozhodování o udělení úvěru, odhalování podvodů nebo vymáhání pohledávek), slouží ve velkých firmách jako nástroj pro manažerská rozhodnutí, udržení klientů atd. Podle studie Erika Brynjolfssona z Massachusettského technologického institutu se na vzorku několika firem ukázalo, že ty, které používaly pro velká manažerská rozhodnutí nástroje dataminingových analýz, byly až o pět procent produktivnější a výdělečnější.

Predikce a generalizace

Jednou z úloh tohoto oboru je i predikce. Při dostatečném množství dat, správně uspořádaných a očištěných, hledají algoritmy opakující se vzorce, které se pak snaží aplikovat na vývoj věcí budoucích. Takovým prediktivním modelem je princip neuronových sítí. Jedná se o algoritmus, jehož vzor leží v činnosti mozku a jeho neuronovém uspořádání. Algoritmus neuronové sítě se umí sám učit – zapamatovává si kombinace, které vedly k požadovaným cílům. Druhou vlastností je generalizace – schopnost reagovat na vstupy, které nebyly součástí trénovacích dat.

Odhad věcí budoucích se týká spotřebitelského chování, vývoje akcií na burze nebo dokonce predikce ve zdravotnictví. V roce 2014 spoluzakladatel Googlu Larry Page tvrdil, že kdyby se na data mining nepohlíželo jako na nepřijatelný, byli by schopní zachránit v následujícím roce až 100 000 životů. A to například díky fitness aplikacím monitorujícím pohyb, stravovací návyky a další. Analýzou by dokázali uživatelům například navrhovat změny v životosprávě, a předcházet tak nemocem. Otázkou je, jak k uvedenému číslu Page dospěl a jestli není přehnané. Nicméně představíme-li si, že podobnou analýzu by prováděly zdravotní instituce s podrobnými záznamy pacientů, napadá nás otázka, zda nebude možné "předvídat" například kardiovaskulární nemoci, hrozbu rakoviny, hladinu cukru, cholesterolu apod. Byly by potom zdravotní instituce schopny upozornit své pacienty na individuální riziko, zajistit tak včasnou prevenci a snad i účinnější léčbu? Klíčem ke všemu je datová databáze.

Pojďme si představit data mining trochu v orwellovské vizi budoucnosti. Existuje svět, ve kterém - ne přímo sledovací, ale optimističtěji řečeno pozorovací - systémy vytvářejí účinnou databázi svých obyvatel. Policie vede záznamy o kriminálních živlech, zločincích. Databáze analyzuje vztahy mezi jednotlivými osobami a událostmi. Dokáže tak předvídat budoucí kriminální činnost. Půjdeme-li ještě dál, existovala by databáze složená z veškerého obyvatelstva. Znala by povahy lidí, jejich blízké vazby, vztahy a styky s jinými lidmi, vyznání, orientaci a další. Nedokáže pak takový nástroj předvídat i teroristické činy? Nezní to lákavě?

Ochranný, nebo sledovací nástroj?

Když se vrátíme zpátky na zem, bezpečnostní agentury jistě podobné metody používají a určitě mohou být užitečné. Nabízí se ale otázka, jak se získanými informacemi nakládat. Nemůže se z toho snadno stát nástroj sledovací, a nikoliv ochranný?

Jiným etickým aspektem jsou databáze samotné, což je také dnes nejdiskutovanější téma. To, že Cambridge Analytica používala cílenou reklamu na facebooku během amerických prezidentských voleb, není nic tak ošemetného, to se marketing snažil dělat i před Facebookem. Lze jen odhadovat, kde je hranice mezi marketingem a manipulací. Problém v kauze spočíval v tom, že osobní data z profilů získala nepovoleným způsobem prostřednictvím osobnostního testu. Data si stáhla neoprávněně a neoprávněně je (vy)užila.

Zajímavostí těchto obrovských databází je, že bez nás by neexistovaly. Této problematice se mimo jiné věnuje Jaron Lenier v knize Komu patří budoucnost. Dle jeho tvrzení "jsme všichni předmětem analýzy, sami ale analyzovat v takové míře nemůžeme". Podle jeho názoru povede toto nevyrovnané rozložení sil k obrovskému propadu mezi bohatými a chudými. Sociální sítě bohatnou díky uživatelům. Peníze získávají ti, kteří informace shromažďují.

Lenier pak představuje ekonomický model, kdy je uživatel internetu za svůj příspěvek do databáze vždy adekvátně odměněn. Jedním z uvedených příkladů jsou nástroje jako Google Translator a další. Tyto překladače jsou závislé na obrovském množství překladů od reálných lidí. Nabízejí funkci "vylepšit překlad". Jak databáze roste, zlepšuje se i výstup. Překladatelé, kteří databázi plní, ale odměnu nedostanou.

Data mining není předmětem sci-fi, je součástí našich životů, respektive všichni se na něm hromadně podílíme a bez nás by nebyl. Z čistě vědeckého hlediska jde o úžasnou disciplínu. Představa předvídání věcí budoucích na základě dat je přinejmenším působivá. Na poli výzkumu, zdravotnictví či kriminality bychom mohli mluvit o neuvěřitelném pokroku, kdyby se takové metody daly účinně aplikovat. Vedle nich jsou ale odvětví, která vždy budou obor využívat k manipulaci. A prozaicky tak končíme u toho, že vždy záleží na jednání člověka.

Tagy: Facebook zahraničí Google data sociální síť média a internet informační technologie osobní data data mining

Zdroje: vlastní