Mécs Anna - Sokdimenziós történetek

Vannak sokdimenziós emberek. Lételemük, hogy egyszerre tartoznak sok helyre, és egyszerre kívülállók is mindenhol. Szeretik sok oldalról megvizsgálni a kérdéseket. Ezeket az embereket és történeteiket szeretném itt megmutatni.

Tűk a szénakazlakból

BIG DATA: EGYRE SOKOLDALÚBB ADATBÁNYÁSZAT

Véget nem érő versenyfutás a folyamatosan gyarapodó adattömeggel a big data elemzés, aminek legalább annyi ígérete van, mint buktatója.

Megjelent: HVG, 2014. január 29.
Szerző: Mécs Anna

big_data_linkedin.jpgNapi kétszázmillió sms-t rögzített az amerikai Nemzetbiztonsági Ügynökség (NSA) a felhasználók tartózkodási helyével és hitelkártyaadataival együtt – közölte a minap a Guardian angol napilap Edward Snowdenre hivatkozva. Az ügynökség aztán – kulcsszavak és egyéb azonosítók segítségével – feltérképezte a megfigyeltek kapcsolati hálóját, és megpróbálta kiszűrni a gyanús viselkedéseket. Az effajta (vitatott) adatbányászat hasonló elméleti és gyakorlati problémákat vet fel, mint amikor a legnépszerűbb internetes kereső, a Google újra és újra végigpörgeti az általa figyelt mintegy százmilliárd weboldalt, azaz több petabájtnyi adatot. „Itt a gigabájt milliószorosáról beszélünk, több ezer otthoni gép memóriáját megtöltené ez a mennyiség” – érzékelteti a nagyságrendeket Benczúr András, az MTA SZTAKI Informatikai Kutatólaboratóriumának vezetője.

A hatalmas adatmennyiségek (gyors) elemzése, az ennek alapján történő előrejelzés vagy szimulációkészítés sok évtizedes törekvés, már az atombomba fejlesztése óta foglalkoztatja a tudósokat. A big data kifejezést azonban csak 1997-ben használta először egy cikkben a NASA két kutatója, hivatalos definícióját pedig négy évvel később publikálta Doug Laney, a Gartner tanácsadó és kutatócég elemzője.

Utóbbi szerint a nagy mennyiségű, nagy változékonyságú és gyorsan keletkező adathalmazokat nevezik big datának. „Az az adattömeg, amely a kor technológiájával nehezen kezelhető” – fogalmaz gyakorlatiasabban Bőgel György közgazdász, a CEU Business School tanára. Ezek elemzésére olyan adatbányászati módszereket alkalmaznak, amelyek lényegében ugyanazt teszik: hasznos összefüggéseket keresnek egy elsőre átláthatatlan adattömegben. Az algoritmusokat azonban szükség szerint megváltoztatva futtatják például azért, mert a hatalmas adatbázisokat „elosztott rendszereken”, azaz több gépen tárolják.

Fordulatot jelentett a kutatásban 2009-ben a H1N1 vírus terjedésének előrejelzése – állítja Greg Satell, a Forbes cikkírója. Az amerikai Betegségfelügyeleti és Megelőzési Központ (CDC) akkor azt kérte az orvosoktól, jelentsék az influenza tüneteinek feltűnését a körzetükben, hogy nyomon követhessék a járvány terjedését. Az adatok pontosak voltak, ám mivel csak kéthetes késéssel tudták feldolgozni őket, nem mentek sokra velük. Akkortájt indította el a Google is a saját influenza-nyomkövető rendszerét, ami annak alapján határozta meg a járvány terjedését, hogy figyelte, hol keresnek rá az interneten a betegség tüneteire, és ezt összevetette a múltbeli lekérdezésekkel. Módszerüket 2009 februárjában publikálták a Nature című tudományos folyóiratban.

Ennél jóval nagyobb kihívás a keresőóriás számára az aktuális közlekedési adatok elemzése. „Mivel nem tudja kellő sebességgel újraépíteni a modelljét, mindig elavult információk alapján mondja meg, hogy merre (nem) kell menni” – állítja Benczúr András. A magyar kutató a munkatársaival hasonló feladatot oldott meg sikerrel egy verseny keretében az elefántcsontparti Orange telefonszolgáltató adataival. Ennek során harminc szerverrel másodpercenként egymillió sms és hívás feldolgozását végezték el, és ezzel képesek voltak a telefontulajdonosok mozgását valós időben követni, sőt bizonyos határok között meg is jósolni, merre mennek tovább.

A hatalmas adattömegek ésszerű feldolgozása több szempontból is kecsegtető az egészségügyben. Az Eli Lilly amerikai cég Open Innovation Drug Discovery elnevezésű programjában például kutatók gyógyszerjelölt molekulák szerkezeti képletét küldhetik el tesztelésre. A cég szakértői a rendelkezésükre álló adatbázis segítségével szimulálni tudják, mekkora hatékonyság és milyen mellékhatások várhatók a molekulától, így feleslegesen nem kezdenek bele a biológiai vizsgálatokba és a tesztelésbe. Az Egyesült Államokban 2010 óta több mint kétszáz vállalat fejleszt egészségügyi alkalmazásokat a személyre szabott és megelőző orvoslás elősegítésére. Az egyik az asztmások által használt inhalátorok adatait, köztük a GPS-koordinátáit rögzíti és elemzi, aminek alapján figyelmeztetéseket képes küldeni az érintetteknek például különösen veszélyes körzetekről.

Az üzleti életben is kifizetődő lehet a big data elemzések használata. 179 amerikai nagyvállalat tanulmányozása alapján azt találták, hogy nőtt az úgynevezett adatvezérelt döntéshozatalra átállók termelékenysége – írta a The New York Times Erik Brynjolfssonnak, az MIT Center for Digital Business igazgatójának kutatásaira hivatkozva. Más kérdés, hogy nehéz meghatározni, meddig lehet elmenni a döntések automatizálásában. Egy felmérés szerint a vállalati big data projektek több mint fele megbukik. De probléma az is, hogy az adatbányászat népszerűségének növekedésével nem képes lépést tartani a szakemberképzés. Nem csoda: a big data elemzőknek a programozási, statisztikai és valószínűség-számítási jártasság mellett például a gráfelméletben és a lineáris algebrában is otthon kell lenniük, ráadásul – hívja fel a figyelmet Bőgel György – „képesnek kell lenniük arra, hogy az eredményeket a laikusok számára is könnyen érthetővé tegyék”.

A legnagyobb gondot azonban sokak számára nem a követhetetlen gyorsasággal növekvő adattömeg feldolgozása okozza, hanem a magánszféra megőrzése, amint arra az NSA-ügy is rávilágított. „Úgy szabadultunk rá a digitális eszközökre, hogy fogalmunk sem volt, mibe keveredünk” – vélekedik Kertész János, a CEU Center for Network Science hálózatkutatója, aki szerint a kiszolgáltatottságon nem a nagy cégek ellenőrzését, hanem az emberek tudatosságát növelve lehet javítani. Bár az EU és az USA is különféle szabályozásokkal védi a személyes adatokat, ez sokakat nem nyugtat meg. A világhírű magyar hálózatkutató, Barabási Albert-László például ekként fakadt ki a minap az amerikai médiacég, a Politico portálján: „Miért hagyjuk terjedni a kommunizmus 2.0-t? Az NSA tevékenysége lényegében oda vezet. Ha mi, kutatók csendben maradunk, minden bizonnyal mind digitális rabszolgává válunk.”

Kép forrása: linkedin.com

A bejegyzés trackback címe:

https://csanna.blog.hu/api/trackback/id/tr436689205

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

Sokdimenziós történetek

Vannak sokdimenziós emberek. Lételemük, hogy egyszerre tartoznak sok helyre, és egyszerre kívülállók is mindenhol. Szeretik sok oldalról megvizsgálni a kérdéseket. Ezeket az embereket és történeteiket szeretném itt megmutatni. Ez a blog azoknak szól, akik nem csak egydimenziósak.