بيانات ضخمة أم بيانات جيدة

السبت 04 صفر 1443ھ السبت 11 سبتمبر 2021م
فيسبوك
تويتر
واتساب
تيليجرام
لينكدإن
المحتوى

يرجع الفضل في معظم التطور الكبير الحاصل في مجال تعلم الآلة إلى تلك المجموعات التي قامت بتحميل النماذج المختلفة واختبارها على البيانات المعيارية القياسية المتوفرة حيث انه قد تم اغداق الكثير من الوقت على تطوير الكود والنماذج والخوارزميات مع انه من الافضل ان يتم التركيز ايضا على تطوير البيانات وجودتها وذلك لأهميتها في عملية Deployment والتي تهدف إلى وضع تلك النماذج في خط الانتاج عن طريق استخدامها في انظمة مختلفة يمكن الاستفادة منها بشكل واضح سواء تجاريا او لأغراض اخرى وهذا هو مجال MLOps تحديداً والذي يمكن تعريفه بأنه مجموعة من الممارسات التي تهدف إلى نشر نماذج تعلم الألة والمحافظة عليها في خطوط الإنتاج بشكل فعّال وموثوق

إذا قمنا بمقارنة البرمجيات التقليدية (التي تعتمد بشكل أساسي على الكود) والبرمجيات القائمة على الذكاء الاصطناعي (والتي تعتمد على نماذج التعلم والخوارزميات بالإضافة إلى البيانات) سنجد انه احيانا من الافضل تحسين الأداء في برمجيات الذكاء الاصطناعي عن طريق تحسين البيانات بدلا من تحسين الكود فقط وابقاء البيانات كعنصر ثابت!

بالعادة يتم اهدار مايقارب ٨٠٪ من العمل على نماذج التعلم على تنظيف وتجهيز البيانات وهي نسبة كبيرة نوعاً ما مما يحتم علينا السؤال المنطقي: لماذا لانضع اهمية كبرى لجودة البيانات المستخدمة في مثل تلك النماذج؟!
في الحقيقة، مايصنع الفارق المميز في عملية نشر النماذج للإنتاج Deployment هو جودة البيانات المستخدمة في تدريب تلك النماذج وتنوعها!

في دراسة حديثة تم اجراءها من قبل باحثين في جامعة كامبردج تم تسليط الضوء على مشكلة تشتت البيانات بشكل خاص عندما تكون البيانات قد تم تجميعها من عدة مصادر مختلفة والتي قد تكون لها هيكلة او تخطيط مختلف بالإضافة إلى ربما مسميات مختلفة وطريقة تخزين ووصول مختلفة وهذا مايجعل المهمة صعبة جداً لمهندسي تعلم الآلة في دمج تلك المعلومات وتصديرها في مجموعة بيانات واحدة نظيفة وجاهزة للاستخدام لتدريب نماذج التعلم.

هناك ايضاً الكثير من العقبات التي قد تعيق تقديم بيانات ضخمة بجودة عالية مثل وسم او وصف تلك البيانات Labelling خصوصاً اذا اضطر الأمر إلى وجود خبراء او مختصين لوسم تلك البيانات مثل البيانات الطبية. بناء على رأي الخبراء في مجال MLOps فإن احدى اكثر التحديات في عمليات نشر نماذج التعلم للإنتاج ونقلها إلى العالم الحقيقي هو صعوبة الوصول إلى بيانات متنوعة وموسومة بدقة عالية!

واخيرا هذه بعض النقاط الأساسية التي قدمها احد أعلام الذكاء الاصطناعي وتعلم الآلة Andrew Ng في مجال MLOps:
– يجب توفير بيانات ذات جودة عالية
– تطابق الوسوم Consistency هو من المفاتيح الأساسية لجودة البيانات وأي اختلاف في طريقة وضع او صنع الوسوم قد يسبب تراجع او تأخر في الأداء. على سبيل المثال في مجال رؤية الحاسوب وتحديد الأجسام، اختلاف الأدوات والطرق المستخدمة في رسم مربعات التوصيف bounding boxes على الأجسام قد يؤدي إلى نتيجة عكسية أو تراجع في الأداء
– تطوير جودة البيانات على نفس النموذج الأساسي قد يكون احيانا افضل من تغيير النموذج إلى افضل النماذج الحديثة

المصادر

Big Data To Good Data: Andrew Ng Urges ML Community To Be More Data-Centric And Less Model-Centric

Challenges in Deploying Machine Learning: a Survey of Case Studies

MLOps

نشرة فهم البريدية
لتبقى على اطلاع دائم على كل ما هو جديد مما تقدمه منصة فهم، انضم لنشرتنا البريدية.
طالبة دكتوراة تخصص ذكاء اصطناعي وتعلم الأنماط بجامعة كونكورديا في مونتريال، كندا • ماجستير في علوم الحاسب الآلي من جامعة كونكورديا في مونتريال، كندا • بكالوريوس علوم الحاسب الآلي مع الدرجة التربوية من جامعة أم القرى بمكة المكرمة • عضو هيئة تدريس بالجامعة السعودية الإلكترونية • سبق وأن عملت كمبرمجة في قسم البرمجة والتطوير بمركز التقنية في جامعة أم القرى

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *