טיוב נתונים

ערך ללא מקורות
בערך זה אין מקורות ביבליוגרפיים כלל, לא ברור על מה מסתמך הכתוב וייתכן שמדובר במחקר מקורי.
אנא עזרו לשפר את אמינות הערך באמצעות הבאת מקורות לדברים ושילובם בגוף הערך בצורת קישורים חיצוניים והערות שוליים.
אם אתם סבורים כי ניתן להסיר את התבנית, ניתן לציין זאת בדף השיחה.
ערך ללא מקורות
בערך זה אין מקורות ביבליוגרפיים כלל, לא ברור על מה מסתמך הכתוב וייתכן שמדובר במחקר מקורי.
אנא עזרו לשפר את אמינות הערך באמצעות הבאת מקורות לדברים ושילובם בגוף הערך בצורת קישורים חיצוניים והערות שוליים.
אם אתם סבורים כי ניתן להסיר את התבנית, ניתן לציין זאת בדף השיחה.

טיוב נתונים או טיוב מידעאנגלית: Data cleansing) הוא תהליך לשיפור איכות הנתונים האגורים במסד נתונים. השיפור נדרש כאשר חלק מהנתונים במסד אינם שלמים, אינם מדויקים, אינם נכונים וכדומה. צורך בטיוב נתונים מתגלה במהלך מחזור החיים של מערכת המידע, ובפרט בעת מעבר למערכת מידע מתקדמת יותר.

נתונים במסדי נתונים משמשים לתפעול שוטף של הארגון וכבסיס לקבלת החלטות. נתונים באיכות ירודה יביאו לשיבושים בתפעול השוטף ולהחלטות שגויות, ולכן בטיובם תועלת רבה. דוגמאות:

  • במערכת לניהול משאבי אנוש נרשם מין העובדת כזכר במקום כנקבה. זו שגיאת הקלדה פשוטה, הגורמת לטעות בעלת ערך כספי ניכר בחישוב מס ההכנסה לעובדת, כמו גם בקביעת זכויות אחרות שלה התלויות במין.
  • במערכת לניהול מלאי תחמושת נוצר פער בין המלאי בפועל למלאי הרשום במערכת, וכתוצאה מכך מוצג למקבלי החלטות מידע על מחסור בתחמושת כשאין כזה, או לא מוצג מידע על מחסור קיים.

שגיאות ואופן טיובן

בעת הזנת נתונים למערכת מידע, נבדקת תקינותם של הנתונים, על מנת להבטיח את אמינותם. חרף זאת, במהלך פעילותה של מערכת מידע, ובפרט במעבר למערכת מידע מתקדמת יותר, עולה צורך בטיוב הנתונים. צורך זה נובע בדרך כלל מטעויות או חוסרים בנתונים המקוריים, או מטעויות הקלדה שלא התגלו בעת הזנת הנתונים. דוגמאות:

  • מאגר הנתונים הוקם באמצעות הקלדה של נתונים שנוהלו בכרטסת בכתב יד. בתהליך זה התקשה המקליד לעיתים לזהות את כתב היד, והחליף בין אותיות דומות, כגון "צ" ו"ד", וכך השם הנשי "דבי" הפך לשם הגברי "צבי". בנוסף, לעיתים המקליד החליף בין מקשים סמוכים במקלדת וכתוצאה נוצר שיבוש בשמות או במספרים. טעות מסוג זה קשה לגלות בבדיקה ממוחשבת, משום שהשם "צבי" נראה תקין לא פחות מאשר השם "דבי".
  • שמו של עובד נרשם בשם החיבה שבו הוא מוכר, אך שם זה שונה משמו הרשמי, ולכן יוצר קושי בעת העברת נתונים ממערכת מידע זו למערכת מידע אחרת שבה העובד רשום בשמו הרשמי.
  • בעת איסוף הנתונים נרשמה בשדה "תאריך לידה" רק שנת הלידה של האדם, ומאוחר יותר התברר שנחוץ תאריך מלא, הכולל יום וחודש. מצב זה מצריך פנייה אל האדם, לקבלת המידע החסר, או למאגר נתונים אחר בו המידע החסר קיים.
  • בשדה "יישוב", העוסק בכתובת בישראל, יש מקום ליותר מאלף ערכים, כמספר היישובים בישראל. בעת הקמת מערכת המידע הותר בשדה זה תוכן חופשי (ללא בדיקתו מול טבלת היישובים התקנית), ורק לאחר זמן התברר שחופש זה יוצר קושי, למשל כאשר אנו מבקשים לקבל את כל תושבי תל אביב, ומגלים ששם העיר נכתב בדרכים מגוונות: "תל אביב", "ת"א" "תל אביב יפו" ועוד. לטיפול בבעיה ניתן להפעיל תוכנת טיוב, שמסמנת את שמות היישובים שאינם תקניים. את השם "ת"א" קל לזהות כאופן המקובל לכתוב את שם העיר תל אביב-יפו, ולתקן את ערך השדה במאגר הנתונים. במקרים קשים יותר יש להפעיל שיטות אחרות, כגון הצלבה עם נתונים אחרים, וכאשר גם זה אינו אפשרי, יש לייצר רשימת שגיאות לטיפול ידני. פעולה זו נקראת "תיקנון נתונים".
  • הצלבת מידע במאגר הנתונים עשויה לגלות בו סתירות פנימיות הדורשות תיקון. למשל במאגר מידע המייצג אוכלוסייה, ברשומה של אדם א' רשום שהוא נשוי לאדם ב'. הטיוב יוודא שאדם בשם המתאים קיים במערכת, והמידע תואם (כלומר ברשומה של אדם ב' רשום שהוא נשוי ל-א', תאריך הנישואים תואם בין הרשומות, וכדומה).
  • ניתוח סטטיסטי של הנתונים עשוי להצביע על קיומן של שגיאות. דוגמה: במערכת מרשם תושבים מתגלה ש-60% מהילדים הם זכרים, ורק 40% נקבות. ההנחה שהתפלגות המינים בין הילדים צריכה להתאים להתפלגות הידועה (בין 1.05 ל-1.06 ילודים זכרים לכל נקבה), מעידה שכנראה חל שיבוש ברישום מין הילדים, או שחלק מהלידות לא נרשמו.