HTML

Ars Portéka

Tudomány is, kultúra is, néha ez is, néha az is. Matek-magyar szakosként vonzódom a "nem normális" életutakhoz. Azokhoz, akik reálok, de humánok, humánok, de reálok. Saját cikkeimet gyűjtöm össze ezen a portréblogon.

Amit rólam...

...tudni lehet, azt itt lehet megtudni.

Alanyok (és állítmányok)

Címkefelhő

Add az arcod a Képletes beszédhez!

Friss topikok

  • Mécs Anna: @Gusi: Micsoda nagylelkű felajánlás :) Szólok is gyorsan Jonathan Rothbergnek :) (2016.01.20. 09:17) Észbe kapnak
  • Messzenéző Minyon: Bocsánat, az aláírás lemaradt: Miklós Ildikó (itt mint Messzenéző Minyon :)), műszaki szerkesztő (2014.05.08. 19:23) A folytonosság ereje
  • Mécs Anna: @Peter Dubovitz: köszönöm, ecsém, a kedves figyelmeztetést. Javítottam az elgépelést. (2013.12.10. 21:14) Sejteni és bizonyítani
  • saragoza: Érdekes (2012.10.29. 04:08) Az idegrendszer matematikája
  • Könyvélvező: A multimédia nagyjából annyiban jelenti az írásbeliség megszűnését, amennyiben a mozi a színházét ... (2011.01.25. 11:46) Az vagy, amit elolvasol

Linkblog

Portrék tőlem, ezerfelől. Mécs Anna blogja.

2014.09.11. 16:09 Mécs Anna

Tűk a szénakazlakból

BIG DATA: EGYRE SOKOLDALÚBB ADATBÁNYÁSZAT

Véget nem érő versenyfutás a folyamatosan gyarapodó adattömeggel a big data elemzés, aminek legalább annyi ígérete van, mint buktatója.

Megjelent: HVG, 2014. január 29.
Szerző: Mécs Anna

big_data_linkedin.jpgNapi kétszázmillió sms-t rögzített az amerikai Nemzetbiztonsági Ügynökség (NSA) a felhasználók tartózkodási helyével és hitelkártyaadataival együtt – közölte a minap a Guardian angol napilap Edward Snowdenre hivatkozva. Az ügynökség aztán – kulcsszavak és egyéb azonosítók segítségével – feltérképezte a megfigyeltek kapcsolati hálóját, és megpróbálta kiszűrni a gyanús viselkedéseket. Az effajta (vitatott) adatbányászat hasonló elméleti és gyakorlati problémákat vet fel, mint amikor a legnépszerűbb internetes kereső, a Google újra és újra végigpörgeti az általa figyelt mintegy százmilliárd weboldalt, azaz több petabájtnyi adatot. „Itt a gigabájt milliószorosáról beszélünk, több ezer otthoni gép memóriáját megtöltené ez a mennyiség” – érzékelteti a nagyságrendeket Benczúr András, az MTA SZTAKI Informatikai Kutatólaboratóriumának vezetője.

A hatalmas adatmennyiségek (gyors) elemzése, az ennek alapján történő előrejelzés vagy szimulációkészítés sok évtizedes törekvés, már az atombomba fejlesztése óta foglalkoztatja a tudósokat. A big data kifejezést azonban csak 1997-ben használta először egy cikkben a NASA két kutatója, hivatalos definícióját pedig négy évvel később publikálta Doug Laney, a Gartner tanácsadó és kutatócég elemzője.

Utóbbi szerint a nagy mennyiségű, nagy változékonyságú és gyorsan keletkező adathalmazokat nevezik big datának. „Az az adattömeg, amely a kor technológiájával nehezen kezelhető” – fogalmaz gyakorlatiasabban Bőgel György közgazdász, a CEU Business School tanára. Ezek elemzésére olyan adatbányászati módszereket alkalmaznak, amelyek lényegében ugyanazt teszik: hasznos összefüggéseket keresnek egy elsőre átláthatatlan adattömegben. Az algoritmusokat azonban szükség szerint megváltoztatva futtatják például azért, mert a hatalmas adatbázisokat „elosztott rendszereken”, azaz több gépen tárolják.

Fordulatot jelentett a kutatásban 2009-ben a H1N1 vírus terjedésének előrejelzése – állítja Greg Satell, a Forbes cikkírója. Az amerikai Betegségfelügyeleti és Megelőzési Központ (CDC) akkor azt kérte az orvosoktól, jelentsék az influenza tüneteinek feltűnését a körzetükben, hogy nyomon követhessék a járvány terjedését. Az adatok pontosak voltak, ám mivel csak kéthetes késéssel tudták feldolgozni őket, nem mentek sokra velük. Akkortájt indította el a Google is a saját influenza-nyomkövető rendszerét, ami annak alapján határozta meg a járvány terjedését, hogy figyelte, hol keresnek rá az interneten a betegség tüneteire, és ezt összevetette a múltbeli lekérdezésekkel. Módszerüket 2009 februárjában publikálták a Nature című tudományos folyóiratban.

Ennél jóval nagyobb kihívás a keresőóriás számára az aktuális közlekedési adatok elemzése. „Mivel nem tudja kellő sebességgel újraépíteni a modelljét, mindig elavult információk alapján mondja meg, hogy merre (nem) kell menni” – állítja Benczúr András. A magyar kutató a munkatársaival hasonló feladatot oldott meg sikerrel egy verseny keretében az elefántcsontparti Orange telefonszolgáltató adataival. Ennek során harminc szerverrel másodpercenként egymillió sms és hívás feldolgozását végezték el, és ezzel képesek voltak a telefontulajdonosok mozgását valós időben követni, sőt bizonyos határok között meg is jósolni, merre mennek tovább.

A hatalmas adattömegek ésszerű feldolgozása több szempontból is kecsegtető az egészségügyben. Az Eli Lilly amerikai cég Open Innovation Drug Discovery elnevezésű programjában például kutatók gyógyszerjelölt molekulák szerkezeti képletét küldhetik el tesztelésre. A cég szakértői a rendelkezésükre álló adatbázis segítségével szimulálni tudják, mekkora hatékonyság és milyen mellékhatások várhatók a molekulától, így feleslegesen nem kezdenek bele a biológiai vizsgálatokba és a tesztelésbe. Az Egyesült Államokban 2010 óta több mint kétszáz vállalat fejleszt egészségügyi alkalmazásokat a személyre szabott és megelőző orvoslás elősegítésére. Az egyik az asztmások által használt inhalátorok adatait, köztük a GPS-koordinátáit rögzíti és elemzi, aminek alapján figyelmeztetéseket képes küldeni az érintetteknek például különösen veszélyes körzetekről.

Az üzleti életben is kifizetődő lehet a big data elemzések használata. 179 amerikai nagyvállalat tanulmányozása alapján azt találták, hogy nőtt az úgynevezett adatvezérelt döntéshozatalra átállók termelékenysége – írta a The New York Times Erik Brynjolfssonnak, az MIT Center for Digital Business igazgatójának kutatásaira hivatkozva. Más kérdés, hogy nehéz meghatározni, meddig lehet elmenni a döntések automatizálásában. Egy felmérés szerint a vállalati big data projektek több mint fele megbukik. De probléma az is, hogy az adatbányászat népszerűségének növekedésével nem képes lépést tartani a szakemberképzés. Nem csoda: a big data elemzőknek a programozási, statisztikai és valószínűség-számítási jártasság mellett például a gráfelméletben és a lineáris algebrában is otthon kell lenniük, ráadásul – hívja fel a figyelmet Bőgel György – „képesnek kell lenniük arra, hogy az eredményeket a laikusok számára is könnyen érthetővé tegyék”.

A legnagyobb gondot azonban sokak számára nem a követhetetlen gyorsasággal növekvő adattömeg feldolgozása okozza, hanem a magánszféra megőrzése, amint arra az NSA-ügy is rávilágított. „Úgy szabadultunk rá a digitális eszközökre, hogy fogalmunk sem volt, mibe keveredünk” – vélekedik Kertész János, a CEU Center for Network Science hálózatkutatója, aki szerint a kiszolgáltatottságon nem a nagy cégek ellenőrzését, hanem az emberek tudatosságát növelve lehet javítani. Bár az EU és az USA is különféle szabályozásokkal védi a személyes adatokat, ez sokakat nem nyugtat meg. A világhírű magyar hálózatkutató, Barabási Albert-László például ekként fakadt ki a minap az amerikai médiacég, a Politico portálján: „Miért hagyjuk terjedni a kommunizmus 2.0-t? Az NSA tevékenysége lényegében oda vezet. Ha mi, kutatók csendben maradunk, minden bizonnyal mind digitális rabszolgává válunk.”

Kép forrása: linkedin.com

Szólj hozzá!

A bejegyzés trackback címe:

http://csanna.blog.hu/api/trackback/id/tr256689205

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben.

Nincsenek hozzászólások.