إنحراف البيانات | Data Skewness

الخميس 29 ربيع الأول 1443ھ الخميس 4 نوفمبر 2021م
فيسبوك
إكس
واتساب
تيليجرام
لينكدإن

1٬159 كلمة

20 دقيقة

المحتوى

في هذا الدرس سنركز على فهم ماهية البيانات المنحرفة وكيفية التعامل معها إن وجدت في مجموعة بياناتك، ومدى تأثيرها على رؤيتك الإحصائية التي تريد تحقيقها باستخدام نموذجك الإحصائي أو نموذج التعلم الآلي الذي ستقوم بتطويره لحل مسألة ما، كالمسائل المتعلقة بخوارزميات الانحدار Regression Algorithms.

توصف البيانات بأنها بيانات منحرفة Skewed Data عندما يكون المنحنى الممثِّل للبيانات في التوزيع الإحصائي Statistical Distribution مُشوَهًا أو مُنحرفًا إما إلى اليسار أو إلى اليمين.

في المقابل يوجد مايسمى بالتوزيع الطبيعي Normal Distribution أو التوزيع المتماثل Symmetric Distribution ، حيث يُظْهِر الرسم البياني تماثلاً مما يعني وجود العديد من قيم البيانات على الجانب الأيسر من الوسيط median كما هو الحال في الجانب الأيمن. الشكل 1.1

e
الشكل 1.1 : الفرق بين التوزيعات الإحصائية المنحرفة و المتماثلة

قبل الشروع بتفصيل هذه التوزيعات الإحصائية سنراجع سوية بعض المصطلحات الإحصائية المهمة:

  • المنوال Mode: هو أكثر قمية متكررة في مجموعة البيانات.
  • المدى Range: هو الفرق بين أكبر قمية و أصغر قيمة في مجموعة البيانات.
  • الوسيط Median: هو القيمة التي تقع في وسط مجموعة من البيانات مرتبة ترتيبًا تصاعديًا من الأصغر إلى الأكبر.
  • المتوسط الحسابي (المعدل) Mean: هو مجموع القيم الموجودة في مجموعة البيانات مقسومًا على عددها.

تعد هذه القيم الإحصائية مؤشرًا ومقياسًا لتحديد تمركز البيانات في التوزيع الإحصائي حيث أنها تحدد مدى إنحراف هذه البيانات ، فعلى سبيل المثال في التوزيع الطبيعي يكون كل من المنوال ، الوسيط ، والمتوسط الحسابي قيمًا متقاربة جداً من بعضها بينما في التوزيعات المنحرفة تكون هذه القيم متباعدة عن بعضها البعض كما سيتم توضيحه في الأسطر القادمة.

التوزيع المنحرف ناحية اليمين | Right Skewed Distribution

هذا التوزيع يسمى أيضًا بالتوزيع إيجابي الانحراف Positive Skewed حيث تكون البيانات منحرفة باتجاه اليمين ويتكون مايشبه الذيل الطويل في اتجاه المحور الموجب لـ x للدلالة على حدوث الانحراف في البيانات كما هو موضح في الشكل 1.2 أدناه.

RS 1
الشكل 1.2 : توزيع منحرف إلى اليمين

خصائص التوزيع :

  • المتوسط الحسابي > المنوال
  • الوسط > المنوال
  • المتوسط الحسابي > الوسط

تعد كل من العبارة الأولى والثانية صحيحة دائمًا في التوزيعات المنحرفة إلى اليمين ولكن العبارة الثالثة ليست بالضرروة كذلك حيث أن التوزيعات الإنحرافية تأخذ أشكالًا متعددة.

التوزيع المنحرف ناحية اليسار | Left Skewed Distribution

يسمى أيضًا بالتوزيع سلبي الانحراف Negative Skewed حيث تكون البيانات منحرفة باتجاه اليسار وكما هو الحال مع الإنحراف الإيجابي يتكون مايشبه الذيل الطويل في اتجاه نقطة الأصل أو المحور السالب لـ x كما هو موضح في الشكل 1.3 أدناه.

LS
الشكل 1.3 : توزيع منحرف إلى اليسار

خصائص التوزيع :

  • المتوسط الحسابي < المنوال
  • الوسط < المنوال
  • المتوسط الحسابي < الوسط

كما هو الحال مع التوزيع السابق تعد كل من العبارة الأولى والثانية صحيحة دائمًا في التوزيعات المنحرفة إلى اليسار ولكن العبارة الثالثة ليست بالضرورة أن تكون صحيحة.

تأثير الإنحراف على النماذج | Effect of Skewness on models

عادة ما تكون التوزيعات الواقعية للبيانات منحرفة ، وإذا ما كان هنالك انحراف كبير في البيانات ، فإن العديد من النماذج الإحصائية لن تعمل بشكل صحيح ولكن لماذا ؟!

ذكرنا أن التوزيعات المنحرفة تتكون في تمثيلها من ذيل طويل والذي يعتبر بدوره بمثابة قيم متطرفة Outliers في البيانات وكما نعلم فإن القيم المتطرفة تؤثر سلبًا على أداء النموذج المراد تطويره على هذه البيانات وبالخصوص النماذج المبنية على مسائل الانحدار Regression، ولكن على صعيد آخر فإن النماذج المبنية على شجيرات القرارات Tree-Based Models تعتبر أقوى من حيث التعامل مع هذه القيم المتطرفة ولكنها ستحد من استخدام نماذج أخرى لذلك ينبغي تحويل أو مقاربة هذه البيانات إلى توزيع غاوسي Gaussian Distribution أو توزيع طبيعي Normal Distribution لتلافي هذه المشكلة.

تطبيق عملي | Practical Implementation

بالإمكان تحميل كل من الـ Notebook و البيانات المستخدمة عبر النقر على الرابط 🔗 لتجربة الأكواد بنفسك:

سنقوم بالعمل على بيانات مخصصة لتوقع أسعار السيارات حسب عدة ميزات تتضمنها هذه السيارات وسنركز فقط على الميزات الرقمية Numerical Features للتحقق من التوزيعات الإحصائية ووجود أي انحرافات في البيانات لتقويمها.

1- استدعاء المكتبات:

2- سحب البيانات:

firefox QMC0Cqfrho
الشكل 1.4 : يظهر الصفوف 15 الأولى في مجموعة البيانات

الآن سنركز على بعض الميزات فقط (الأعمدة) ونقوم بفحص البيانات للتأكد من توزيعها الاحصائي وذلك عن طريق رسم مدراج التكرارات Histogram Graph

3- التأكد من التوزيع الاحصائي للبيانات

لنأخذ على سبيل المثال ميزة سعة محرك السيارة ونشاهد التوزيع الاحصائي لهذه الميزة:

image 11
الشكل 1.5 : رسم بياني يعبر عن تكرارات القيم الموجودة في ميزة سعة المحرك

نلاحظ بوضوح أن الرسم لا يشكل توزيعًا طبيعيًا بل يشكل توزيعًا منحرفًا ناحية اليمين ! سنستخدم طريقة احصائية أخرى للتأكد من وجود الانحراف وهو مايسمى باختبار داجوستينو D’Agostino K^2 Test من خلال ما يسمى بقيمة P أو P-value حيث تعد هذه القيمة مؤشرًا على ميل البيانات لتمثيل توزيع طبيعي بحيث كلما كانت هذه القيمة أعلى كلما كانت البيانت موزعة بشكل طبيعي أكثر ويحدد الإحصائيون في العادة قيمًا مختلفة لـ P لقبول مثل هذه الفرضيات ولن ندخل في تشعبات هذا الأمر بل سنعتمد ما يلي:

عندما تكون P > 0.05  فهذا يقتضي توزيعًا طبيعياً    

الآن سنجرب ذلك برمجيًا من خلال مكتبة SciPy عبر دالة normalist

image 4
الشكل 1.6: نتيجة الشفرة البرمجية

الذي نلاحظه أن قيمة الـ p-value صغيرة جداً حيث أنها تساوي = p-value = 1.485 x 10 ^ -21 وهذا يعني أنها بعيدة تمامًا عن كونها تمثل توزيعًا طبيعيًا للبييانات!

4- التعامل مع المشكلة

سنستخدم ثلاث أساليب مختلفة للتعامل مع هذا التوزيع لمحاولة تحويله إلى ما يشبه التوزيع الطبيعي :

  • التحويل اللوغاريتمي | Log Transformation
  • التحويل بالجذر التربيعي | Square Root Transformation
  • التحويل بصندوق كوكس | Cox Box Transformation

أولًا التحويل اللوغاريتمي

image 6
الشكل 1.7: نتيجة الشفرة البرمجية للرسم البياني المحول باستخدام التحويل اللوغاريتمي

نلاحظ أن البيانات بعد التحويل قد اقترتب من التوزيع الطبيعي وقيمة P تحسنت بشكل كبير p-value = 2.26 x 10^-6 ولكن لازالت لا تمثل توزيعًا طبيعيًا حسب المعيار الذي وضعناه في الأعلى!

ثانيًا : التحويل بالجذر التربيعي

image 7
الشكل 1.8: نتيجة الشفرة البرمجية للرسم البياني المحول باستخدام التحويل بالجذر التربيعي

نلاحظ أن البيانات بعد التحويل باستخدام تحويل الجذر التربيعي قد تحسنت p-value = 2.95 x 10^-13 ولكن ليست بنفس درجة التحسين باستخدام التحويل اللوغاريتمي!

ثالثًا : التحويل بصندوق كوكس

يعتبر هذا التحويل من أفضل الأساليب المتبعة في هذا الصدد حيث يملك معامل Parameter من خلاله يتم الحصول على توزيعات “أقرب ما يمكن إلى التوزيع الطبيعي” فعن طريق تبديل القيمة لامبدا بشكل متكرر ومقارنة النتائج يمكننا الحصول على أفضل نتيجة ممكنة تناسب التوزيع المراد تحويله.

image 9
الشكل 1.9: نتيجة الشفرة البرمجية
image 10
الشكل 1.10: نتيجة الشفرة البرمجية للرسم البياني المحول باستخدام صندوق كوكس

الآن كما نشاهد فقد حصلنا على أفضل نتيجة ممكنة من بين جميع الدوال السابقة حيث أن قيمة P تجاوزت العتبة التي وضعناها سابقًا بكثير p-value = 0.615 و أصبح الشكل مائلًا أكثر لكونه توزيعًا طبيعيًا.

مقارنة بين البيانات قبل التحويل وبعد التحويل من حيث كثافة وجود القيم المتطرفة:

image 12
الشكل 1.11: مقارنة بين البيانات قبل التحويل وبعد التحويل

نلاحظ الفرق الكبير بين كثافة وجود القيم المتطرفة بين البيانات ماقبل تحويلها باستخدام صندوق كوكس وبعدها .

لن نتطرق في هذا الدرس إلى كيفية استخدام هذه البيانات المحولة في نماذج الانحدار فهي موضوع منفصل وقد يطول الدرس أكثر ولكن سنعمل على مقارنة بسيطة للعلاقة بين سعة المحرك وسعر السيارة لرؤية الفرق بين تبعثر البيانات قبل وبعد التحويل.

image 13
الشكل 1.12: مقارنة بين نسبة بعثرة البيانات قبل التحويل وبعد التحويل

وبذلك ينتهي درسنا الذي أتمنى أن أكون قد وفقت في تقديمه بشكل مفهوم و مبسط.

نشرة فهم البريدية
لتبقى على اطلاع دائم على كل ما هو جديد مما تقدمه منصة فهم، انضم لنشرتنا البريدية.
استشاري تقني في علم البيانات والذكاء الاصطناعي، مهتم بكل ما يخص البيانات من إدارة، حوكمة، وتنفيذ، حاصل على بكالوريوس في علوم الهندسة الكهربائية، صانع محتوى على منصة فهم، أنشر المعرفة الرقمية على حساباتي في وسائل التواصل الاجتماعي.
  1. ندى ندى

    شكرا على الشرح باللغة العربية

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *