مقدمة :
تُعتبر جودة البيانات أحد أهم ركائز عمليات إدراة البيانات إن لم تكن الأهم حيث لا يمكن تطوير نماذج بيانات أو ذكاء اصطناعي قوية أو حتى تشكيل رؤى وأفكار صحيحة بدون بيانات ذات جودة عالية فأي من المتخصصين في مجال البيانات قد طرأ على مسامعه ولو لمرة عبارة Garbage In Garbage out أي أن المدخلات الرديئة تؤدي إلى مخرجات رديئة كما أن علماء البيانات يقضون 80% من وقتهم على تنظيف وتجهيز البيانات، فالبيانات ذات الجودة المنخفضة تؤدي إلى عواقب تجارية كبيرة على المؤسسات والشركات، فغالبًا ما يتم ربطها كمصدر للخطأ التشغيلي والتحليلات غير الدقيقة واستراتيجيات العمل غير المدروسة و الضرر الاقتصادي كالنفقات الإضافية الناجمة على سبيل المثال عن شحن المنتجات إلى عناوين عملاء خاطئة، أو فرص المبيعات الضائعة بسبب سجلات العملاء الخاطئة أو غير المكتملة، والغرامات بسبب الإبلاغ غير السليم عن الامتثال المالي أو التنظيمي في المؤسسة وغيرها الكثير.
جودة البيانات | Data Quality:
لتبسيط الأمر يمكن تعريف جودة البيانات Data Quality: على أنها قياس لحالة البيانات باستخدام عدة معايير محددة مسبقًا من حيث قدرتها على تلبية احتياجات مستخدميها والاعتماد عليها.
وتعتبر الجودة معيارًا حاسمًا في المؤسسة لضمان أن القرارات المتخذة بناءً على بياناتها هي قرارات دقيقة قدر الإمكان حيث أن البيانات ذات الجودة العالية تُشكل معلومات ذات جودة عالية والتي تؤدي إلى تكوين المعرفة اللازمة للمؤسسة وبدورها تقود إلى قرارات حكيمة تساهم في نمو في أداء المؤسسة على جميع الأصعدة أو تجنب الأخطار المحيطة بأعمالها التجارية.
إدارة جودة البيانات | Data Quality Management:
إدارة جودة البيانات Data Quality Management : هي مجموعة من الممارسات التي تعنى بتخطيط وتنفيذ ومراقبة الأنشطة المتعلقة بالبيانات لغرض تحسينها ورفع جودتها والتأكد أنها صالحة للاستهلاك وتلبي احتياجات مستخدميها.
أركان إدارة جودة البيانات:
1- الأفراد Individuals: لا يمكن أن تطبق مجموعة من الممارسات بدون التزام فعلي من الأفراد العاملين في المؤسسة أو دون وضعهم في الأماكن الصحيحة وتزويدهم بالأدوات اللازمة التي تتيح لهم ممارسة إدارة البيانات بشكل فعال.
2- استخلاص البيانات Data Profiling: وهي عملية مسؤولة عن فهم الوضع الحالي للبيانات في المؤسسة من حيث مراجعة مصدر البيانات، وفهم الهيكل ، والمحتوى والعلاقات المتبادلة، لفهم أين يمكن أن نطبق ممارسات إدارة جودة البيانات.
3- تعريف جودة البيانات Defining Data Quality: يتم تعريف قواعد الجودة وكيف يجب أن تكون البيانات ذات الجودة العالية High Quality Data.
4- إبلاغ البيانات Data Reporting: في هذه العملية يتم الإبلاغ عن مدى جودة البيانات ومراقبتها لغرض تحسينها وتجويدها في المؤسسة.
5- إصلاح البيانات Data Repair: يتم تعريف أفضل الطرق للتعامل مع البيانات ذات الجودة المنخفضة لنصل إلى المستوى المطلوب من الجودة في المؤسسة.
أبعاد جودة البيانات | Data Quality Dimensions :
بُعد جودة البيانات Data Quality Dimension: هو سمة Feature قابلة للقياس Measurable أو خاصية مميزة للبيانات تستخدم لتحديد وقياس ما إذا كانت البيانات ذات جودة عالية أو منخفضة.
يوجد العديد من أطر عمل Frameworks إدارة جودة البيانات التي تصف وتحدد هذه الأبعاد ولكن في هذا الدرس سنركز على ستة أبعاد أساسية لجودة البيانات تم تحديدها في عام 2013 من قبل DAMA UK وهي كالتالي:
- الضبط Accuracy
- الصلاحية Validity
- الحالية Timeliness
- الاستكمال Completeness
- الفرادة Uniqueness
- الاتساق Consistency
جدول افتراضي لبيانات مجموعة من الموظفين مخزنة في قاعدة بيانات سيتم استخدامه لشرح كيفية استخدام أبعاد جودة البيانات عمليًا لتقييم جودة المدخلات.
رقم الموظف | الاسم | الدولة | المدينة | تاريخ الميلاد | رقم الجوال |
1 | أحمد الحربي | السعودية | الرياض | 26-05-1982 | 597599 (966) |
2 | أيمن رمضان | مصر | القاهرة | 02-12-1992 | 1589749 (20) |
3 | جون سميث | الولايات المتحدة | نيويورك | 04-06-1970 | 897469 (1) |
4 | عبير الأحمدي | السعودية | الرياض | 23-11-2000 | 559797 (966) |
5 | منى جار | الأردن | عمان | 10-22-2222 | 978179158 (962) |
6 | مراد محمد | الغرب | الرباط | 48979 (216) | |
7 | خالد مصطفى | سوريا | دمشق | 10-08-1990 | 91591 963) |
8 | ماري | المملكة المتحدة | لندن | 10-08-1987 | 78952 (44) |
9 | جون سميث | الولايات المتحدة | نيويورك | 04-06-1970 | 897469 (1) |
1- الضبط Accuracy: ويعني أن البيانات المخزنة هي بيانات دقيقة وصحيحة تمثل بالفعل البيانات في العالم الحقيقي ويعتبر الضبط أحد الأبعاد الأكثر أهمية في قياس جودة البيانات.
تكمن صعوبة قياس الضبط في نوع البيانات التي يتم قياسها فلو أخذنا سمة الدولة في الجدول أعلاه ونظرنا إلى الصف 6 نجد أن كلمة دولة المغرب أدخلت بشكل خاطئ “الغرب” والأصل أن تكون “المغرب” أسماء الدول لها عدد محدود وقواعد محددة لكتابتها وهذا يسهل من عملية اكتشاف الأخطاء وتصحيحها عن طريق المرشحات Filters من خلال الأدوات التي تستخدم في عمليات تجويد البيانات ولكن لو نظرنا إلى سمة الاسم الصف 5 نجد الاسم “منى جار” يتبادر إلى الذهن شك فيما إذا كان الاسم صحيحًا أم يجب أن يكون “جابر” ؟! فالأسماء لاحدود لها وقد تكتب بأشكال مختلفة كما باللغة الإنجليزية Mohamad, Muhammed مما يصعب عملية ضبطها.
2- الصلاحية Validity: وتعني أن البيانات يجب أن توافق الصيغة المتفق عليها format، النوع type أو حدود النطاق Range سواء كانت بيانات رقمية أو فئوية.
سنضرب أمثلة على بيانات لا تعتبر صالحة valid من خلال الجدول أعلاه:
- النوع type: مدخلات رقم الموظف أرقامًا فحسب مثل 1، 2 ، 3 … 500 فإذا تم إدخال مدخلات كــكتابة ten بدلًا من 10 فيعتبر هذا إدخالًا خاطئًا.
- الصيغة format: لو نظرنا إلى سمة رقم الجوال الصف 7 نلاحظ أن المدخلات لا توافق الصيغة المتفق عليها 100% “رقم الجوال (مفتاح الدولة)” فهنالك قوس مفقود.
- حدود النطاق Range: في سمة تاريخ الميلاد الصف الخامس نلاحظ أن كل من الشهر والسنة لا يتفقان مع صيغة كتابة تاريخ الميلاد.
3- الحالية Timeliness: وتعني أن تكون البيانات حاضرة عند الحاجة اليها وفي الزمن المتوقع.
فلو أردنا استخراج أحد سجلات الموظفين من قاعدة البيانات يجب أن يكون السجل متاحًا في مكانه المخصص ويمكن استحضاره في الوقت المتوقع على سبيل المثال بضع ثوانٍ فلو أن البيانات تتطلب وقتًا طويلاً لاستحضارها سيؤخر ذلك العديد من المؤسسات والشركات التي تعتمد في الزمن في سير أعمالها التجارية كالبنوك والمستشفيات وغيرها.
جرى التنويه أن البعض قد يربط المثال التالي ببعد الحالية Timeliness ولكن الصحيح أنه مثال على بعد الضبط Accuracy: لو نظرنا إلى السجل الأول في الجدول للموظف أحمد الحربي وأردنا إبلاغه بعدم القدوم إلى مقر العمل بسبب إجراء بعض أعمال الصيانة وكان رقم الجوال غير محدث منذ ثلاث سنوات (خلال هذه الثلاث سنوات قام أحمد باستبدال رقم جواله) فإن بيانات هذا الموظف غير المحدثة لا تعتبر دقيقة أو مضبوطة Accurate بينما لو أردنا الحصول على بيانات رقم الجوال بسرعة معينة ولم نتمكن من ذلك فهذا يشير إلى قصور بجودة هذه البيانات من حيث بعد الحالية Timeliness.
4- الاستكمال Completeness: جميع البيانات المطلوبة لحالة أو استخدام معين تكون حاضرة ، مكتملة وجاهزة للاستخدام.
لو أرادت المؤسسة أن تضيف بعض الحوافز إلى رواتب الموظفين التي تتراوح أعمارهم بين 18 و 30 سنة فإن سمة كتاريخ الميلاد في الجدول أعلاه ستكون حاسمة لأخذ الموظف بالاعتبار فلو نظرنا إلى الصف 6 نلاحظ أن الموظف “مراد” لا يملك هذه المعلومة في سجله مما سيؤدي إلى عدم احتسابه في هذه الفعالية بالرغم من أنه مؤهل وهذا المثال يدل عدم الاستكمال لبيانات هذا السجل! ومثال آخر لو أردنا حجز تذاكر الطيران لاقامة فعالية خارجية نلاحظ أن السجل رقم 8 للموظفة ماري غير مكتمل ولا يحتوي على اسم العائلة بينما شركات الطيران تتطلب الاسم كامل لاستكمال اجراءات السفر.
في بعض الأحيان تكون السمة غير مهمة في الحالة التي نريد استخدام البيانات بها كعامود يحتوي على الهوايات فإن فقد هذه المعلومة لا يعتبر خللًا في بعد الاستكمال Completeness.
5- الفرادة Uniqueness: يقيس بعد الفرادة نسبة التكرارات في مجموعة البيانات فيتم اعتبار أن البيانات فريدة إذا ظهرت مرة واحدة فقط في المجموعة.
مثال ذلك نلاحظ أن السجل رقم 3 للموظف جون سميث قد تكرر في السجل رقم 9 في الجدول أعلاه وهذا يقود إلى مشكلة في بعد الفرادة في مجموعة البيانات.
6- الاتساق Consistency: أي أن البيانات لا تتعارض مع بيانات أخرى في المؤسسة.
مثال ذلك : لو أن لدي جدول آخر في المؤسسة يحتوي على رواتب الموظفين و قمنا بالمقارنة الجدول السابق مع الجدول أدناه نلاجظ أن الموظف رقم 2 يختلف في الجدولين وهذا يدل على عدم الاتساق أو التناغم بين البيانات في المؤسسة.
رقم الموظف | الاسم | الراتب |
1 | أحمد الحربي | 12000 |
2 | صابر محمد | 10000 |
….. | ….. | ….. |
ملاحظة : لقد تم شرح الأبعاد على أمثلة محددة ولم يتم قياسها على جميع مجموعة البيانات فعندما نقيس بعد كالاستكمال على سبيل المثال فيجب أن نمر على جميع سجلات الموظفين في كل عمود (سمة) ونحسب عدد السجلات غير المكتملة لاحتساب نسبة استكمال البيانات فلو احتسبنا نسبة الاستكمال على سمة الاسم نجد أنه سجل واحد فقط يخالف بعد الاستكمال وهو للموظف رقم 8 فبذلك تكون نسبة الاستكمال في عمود الاسم تساوي 7/8 أو 87.5% وكذلك الأمر على بقية الأبعاد والسمات كالضبط و الصلاحية وغيرها.
عمليات تحسين جودة البيانات | Data Quality Improvement Processes :
1- تعريف أهداف وقواعد ومسؤليات تحسين جودة البيانات: من الأخطاء الشائعة قي مشاريع تحسين جودة البيانات أن لا يتم تعريف الأهداف أو تحديد الرؤية من هذه المشاريع حيث يتم البدء بالاطلاع على مجموعات البيانات في المؤسسة و القيام بتنظيفها دون تحديد الأولويات و مالذي سيتم تحقيقه من عمليات التحسين.
فينبغي أن يتم الالتقاء بأصحاب المصلحة في المؤسسة stakeholders أو وحدات الأعمال التجارية Business Units وتحديد رؤية واضحة و أهداف من عمليات التحسين فلو أخذنا المثال السابق سيتم الاجتماع مع المسؤولين في وحدة الموارد البشرية وسيتم تحديد الأهداف من العمل على تحسين بياناتهم كجعل جميع سجلات الأسماء فريدة ودقيقة ، أو الحرص على استكمال البيانات المفقودة، أو خلق التناغم بين مجموعات البيانات الأخرى ومصادرها ولا داعي للقلق إن تم التغافل عن بعض الأهداف فعملية تحسين جودة البيانات هي عملية مستمرة ورشيقة Agile أي قد يتم تحديث أو إضافة أهداف جديدة خلال عمليات التحسين ،فيما بعد سيتم تحديد الآثار المترتبة على عمليات التحسين كتحسين إدارة الرواتب والتخطيط الجيد للإجازات وسهولة الوصول لمعلومات الموظفين في حالات الطوارئ وغيرها فيما بعد سيتم تحديد قواعد البيانات الدقيقة Data Rules كجعل سمة الاسم تحتوي على الاسم الأول واسم العائلة وعدم ترك خلية تاريخ الميلاد فارغة أو تجنب استخدام أرقام غير منطقية في رقم الجوال وغيرها ثم يتم تحديد المسؤولين والمشرفين على هذه العمليات و أخذ الموافقة من خلال مالك البيانات Data Owner (مدير قسم الموارد البشرية في هذا السيناريو).
2- استخلاص البيانات Data Profiling: في هذه العملية يتم تقييم وضع البيانات الموجودة بالمقارنة مع قواعد البيانات التي تم وضعها في الخطوة السابقة من حيث قياس أداء هذه البيانات عن طريق استخراج نسبة مئوية % تمثل مدى توافق البيانات مع هذه القواعد والتي تعتمد على أبعاد جودة البيانات Data Quality Dimensions فعلى سبيل المثال نسبة دقة أو ضبط البيانات لسمة تاريخ الميلاد هي 92% أي أن جميع الموظفين يملكون بيانات تاريخ ميلاد صحيحة ومنطقية باستثناء 8% منهم على سبيل المثال الذي يملكون تاريخ ميلاد كـ 22/22/2222 !.
3- إجراء تقييم لجودة البيانات: عند إجراء عملية تقييم جودة البيانات يتم تحديد الفجوة بين جودة البيانات الحالية والأهداف التي تم تعريفها وهو الحصول على بيانات ذات جودة عالية فعلى سبيل المثال تصل نسبة ضبط البيانات إلى 80% والهدف هو الحصول على بيانات مضبوطة بنسبة 100% أي أن الفجوة التي يجب ردمها تساوي 20% من أصل جميع البيانات بالإضافة إلى ذلك يتم تحديد السبب الجذري Root Cause لمشاكل الجودة كعدم اعتبار ادخال اسم العائلة كحقل اجباري في نظام إدارة الموظفين أو عدم تحديد نطاق زمني منطقي لتاريخ الميلاد وذلك لإنشاء حلول بخصوص هذه الأسباب و تجنب الوقوع فيها مستقبلًا.
4- حل مشكلات جودة البيانات: تعتبر هذه المهمة الأطول في عمليات تحسين جودة البيانات فعند تقييم جودة البيانات وتحديد السبب الجذري لمشكلات الجودة يتم اقتراح خطة تحسين جودة البيانات بناء على تعقيد المشاكل المتعلقة بالجودة والتي قد تتطلب تغيرات تنظيمية أو تقنية، على سبيل المثال تحسين برمجيات نظام إدارة الموظفين عن طريق عمل نطاقات منطقية لتاريخ الميلاد أو جعل عملية إدخال الأسماء إجبارية وغيرها من الإجراءات الأخرى ثم البدء بتنفيذ هذه الخطة وتعميم هذه السياسات والتغييرات الجديدة على المسؤولين.
5- المراقبة والتحكم بجودة البيانات: عندما ينتهي المشروع المرتبط بتحسين جودة البيانات في المؤسسة لا تنتهي معه جميع المشاكل فعملية التحسين عملية مستمرة كما ذكرنا سابقًا فبعد مدة قد تظهر مشاكل جديدة تخفض من الجودة عبر الزمن ولذلك يتطلب الأمر وجود آليات مراقبة وتحكم ومؤشرات أدء رئيسة KPIs للتأكد من جودة البيانات ورصد ومعالجة المشاكل المرتبطة بها.