Dataavstamming

Dataavstamming (engelsk: data lineage) er en beskrivelse eller representasjon av hvor data kommer fra (opprinnelsen til data). For eksempel kan den vise hvilke underliggende tabeller en tabell i en database er laget av. Dataavstamming gir synlighet, og forenkler sporing av feil i dataanalytikk tilbake til rotårsaken.^[1] Dersom man bruker versjonskontroll er det også mulig å se hva som skjer med dataavstammingen over tid.^[2]

Dataavstamming kan også muliggjøre rekjøring av spesifikke deler eller innputt av en dataflyt for stegvis feilsøking eller regenerering av tapte resultater. Databasesystemer bruker slik informasjon, kalt dataopprinnelse (data provenance), for å løse lignende utfordringer med validering og feilsøking.^[3] Dataopprinnelse kan her referere til registrering av inndata, entiteter, systemer og prosesser som påvirker data av interesse, og gir en historisk oversikt over dataene og deres opprinnelse. Dette kan brukes for å støtte opp under dataetterforskning , som for eksempel avhengighetsanalyse, analyse av kompromitterte data og gjenoppretting, revisjon og samsvarsanalyse. Dataavstamming kan derved sees på som en undertype av dataopprinnelse.^[3]

Dataavstamming kan representeres visuelt for å se dataflyten fra kilder til destinasjoner, via ulike transformasjoner underveis, hvordan representasjon og parametre endres, og hvordan data deler seg eller konvergerer etter hvert hopp. En enkel representasjon av avstammingen kan vises med prikker og linjer, der punktene representerer databeholdere, og linjene representerer transformasjonene dataene går gjennom mellom databeholderne.

Representasjon avhenger stort sett av hvordan metadataene er organisert, og hva som er av interesse. Dataavstamming kan både brukes bakover for å vise kildene til dataene, og fremover for å se hvor dataene blir brukt. En ende-til-ende-visning gir mulighet for full gjennomgang, men kan være omfattende med mange grener. Etterhvert som antallet datapunkter og hopp øker blir kompleksiteten til en slik representasjon uforståelig. Dette kan begrenses ved å midlertidig maskere andre stier, og se på en og en sti av gangen. Hvis dataavstammingen er lett overførbar til kildekode- og datastrukturer kan det lette feilsøking, datamigrering og endring av prosesser, og derved spare betydelige mengder tid og ressurser i arbeid med virksomhetsetterretning.^[4] Dataavstamming styres og forvaltes vanligvis av datastyring og dataforvaltning. For å representere forskjellige systemer samlet kan normalisering av metadata eller standardisering være nødvendig.

Se også

Rettet asyklisk graf
Vedvarende landingssone, en landingssone som sporer hele endringshistorikken for en kildetabell eller spørring
Datamodellering
Databasekatalog
Dataordbok
Datakvalitet
Grunndataforvaltning
Programstyring
Stordata

Referanser

^ Hoang, Natalie (16. mars 2017). «Data Lineage Helps Drives Business Value - Trifacta». Trifacta (på engelsk). Besøkt 20. september 2017.
^ «What is Data Lineage? - Definition from Techopedia».
^ ^a ^b De, Soumyarupa. (2012). Newt : an architecture for lineage based replay and debugging in DISC systems. UC San Diego: b7355202. Retrieved from: https://escholarship.org/uc/item/3170p7zn
^ Drori, Amanon (18. mai 2020). «What is Data Lineage? - Octopai». Octopai (på engelsk). Besøkt 25. august 2020.

[1] Hoang, Natalie (16. mars 2017). «Data Lineage Helps Drives Business Value - Trifacta». Trifacta (på engelsk). Besøkt 20. september 2017.

[2] «What is Data Lineage? - Definition from Techopedia».

[DeSoumyarupa-3] De, Soumyarupa. (2012). Newt : an architecture for lineage based replay and debugging in DISC systems. UC San Diego: b7355202. Retrieved from: https://escholarship.org/uc/item/3170p7zn

[4] Drori, Amanon (18. mai 2020). «What is Data Lineage? - Octopai». Octopai (på engelsk). Besøkt 25. august 2020.

[1]

[2]

[3]

[4]