Gagnagnótt

Myndræn framsetning gagna um nafnlausar breytingar á Wikipediu.

Gagnagnótt eða gríðargögn er heiti á því mikla magni gagna eða gagnasetta sem hefðbundin búnaður til gagnavinnslu ræður ekki við en nútímatækni gerir fólki kleyft að vinna úr með aðstoð tölva. Meðal þeirra áskoranna sem gagnagnótt hefur í för með sér er að finna betri leiðir til að safna gögnunum, geyma þau, greina, leita í þeim, deila þeim, flytja á milli tölvukerfa, setja fram myndrænt, móta fyrirspurnir fyrir, uppfæra þau og tryggja gagnavernd.

Einkenni gagnagnóttar

Á enskri tungu, sem er helsta tungumál hnattvæðingar, er, til einföldunar, gjarnan sagt að fimm lýsingarorð sem öll byrja á bókstafnum v einkenni gagnagnótt. Þessi tiltekna einföldun á eiginleikum gagnagnóttar á rætur sínar að rekja til erindis sem tækniráðgjafinn Doug Laney hélt árið 2001 og samanstóð upphaflega af þremur v-um.[1] Seinna meir bættust tvö við áreiðanleiki (e. veracity) og verðmæti (e. value).

Magn

Magn (e. volume) sífellt meira magn af gögnum er safnað saman. Í frétt frá 2013 var sagt frá því að eBay geymdi um 90 petabæt af gögnum um gesti á vef sinn og að um 100 terabæt bættust við á degi hverjum.[2]

Hraði

Hraði (e. velocity) gagna eða magn gagna sem verður til á tiltekinni tímaeiningu hefur aukist mjög. Tilraunir sem framkvæmdar eru í stóra sterkeindahraðlinum framleiða meira en 500 terabæt af gögnum á hverri sekúndu sem er of mikið af gögnum til þess að hægt sé að geyma þau öll. Af þeim sökum er notast við algrím til þess að sía burt þau gögn sem ekki eru talin áhugaverð.[3]

Fjölbreytni

Fjölbreytni (e. variety) gagna felst í því að gögn geta verið á mismunandi formi: texta, hljóði, hreyfimynd eða mynd eða á tvíundarkerfiskóða. Enn fremur er ekki víst að gögnum sem safnað er saman frá mismunandi heimildum noti sömu mælieiningu eða hreinlega sömu skilgreiningu á því sem er mælt. Þá getur skipt máli hvernig eyður í gagnasetti eru meðhöndlaðar. Þetta getur valdið vandamálum við frekari vinnslu gagnanna, sér í lagi hjá stórfyrirtækjum.[4][5]

Áreiðanleiki

Áreiðanleiki (e. veracity) gagna vísar til þess að erfitt getur verið að sannreyna tiltekið gagnasett og því stærra sem það er því erfiðara. Svo dæmi sé tekið getur sú spurning vaknað við úrvinnslu tiltekins gagnasetts hvort að Jón I. Jónsson sem býr á Hávallagötu 18 og Jón Ingvar Jónsson sem einnig býr á Hávallagötu 18 séu sami maðurinn.[6] Almenn skynsemi segir okkur að svo sé að öllum líkindum en tölvur ráða ekki við slíka ályktunarhæfni.

Verðmæti

Verðmæti (e. value) gagnagnóttar felst auðvitað ekki í gögnunum sem slíkum heldur hvernig hægt er að hagnýta gagnagnótt til þess að auka skilvirkni eða selja fleiri vörur hjá fyrirtæki eða stofnun sem hefur meira með viðskiptafræði að gera en tölvunarfræði.[7]

Vinnsla gagnagnóttar

Vinnsla gagnagnóttar hefur oftar en ekki það í för með sér að þörf verður á að skala tölvukerfið sem notast er við. Hefðbundin uppfærsla á tölvukerfum vegna þarfar á aukinni afkastagetu hefur jafnan falið í sér að „skala upp“ sem þýðir að vélbúnaður tölvunnar sem er notuð er uppfærð: vinnsluminni eða geymslupláss aukið eða hraðari örgjörvi settur. Undanfarin ár hefur meira borið á því að „skala út“ en þá er munurinn sá að bætt er við einni eða fleiri tölvu af svipaðri afkastagetu og verkefnunum skipt á milli þeirra.

Hefðbundnir gagnagrunnar eru svokallaðir venslagagnagrunnar sem notast við staðlað fyrirspurnamál sem heitir SQL. Venslagagnagrunnar þurfa hins vegar að lúta að takmörkunum töfluskemans sem ákvarðar hvaða gögn geta farið inn í hverja töflu í gagnagrunninum. Hönnun töfluskemas fyrir tiltekið verkefni krefst jafnan töluverðrar forsjálni. Ennfremur takmarkast hefðbundnir venslagagnagrunnar af hinum svonefndu fjórum grunneiginleikum hreyfinga (skammstafað ACID á ensku): einingu, heilleika, einangrun og endingu sem saman tryggja áreiðanleika gagnagrunnsins.[8]

Gagnagnótt hefur orðið til þess að auka kröfur um sveigjanleika gagnagrunna. Ein helsta hreyfing í þá áttina er skammstöfuð NoSQL sem stendur fyrir „not only SQL“, „not relational SQL” eða „non SQL” og svo seinna meir NewSQL.

Tilvísanir

  1. Doug Laney (2012). „Deja VVVu: Others Claiming Gartner's Construct for Big Data“.
  2. „Inside eBay's 90PB data warehouse“. itNews. 10. maí 2013.
  3. „Processing: What to record?“. CERN.
  4. Mary Shacklett (5. september 2014). „How to cope with the big data variety problem“.
  5. Thor Olavsrud (2. júlí 2014). „Data Scientists Frustrated by Data Variety, Find Hadoop Limiting“.
  6. Tommy Petersson (10. febrúar 2003). „Data Scrubbing“. ComputerWorld.
  7. Kristian J. Hammond (1. maí 2013). „The Value of Big Data Isn't the Data“. Harvard Business Review.
  8. Jón Freyr Jóhannsson (2008). „Gagnasafnarinn“ (PDF). bls. 90.

Tenglar