يرجع الفضل في معظم التطور الكبير الحاصل في مجال تعلم الآلة إلى تلك المجموعات التي قامت بتحميل النماذج المختلفة واختبارها على البيانات المعيارية القياسية المتوفرة حيث انه قد تم اغداق الكثير من الوقت على تطوير الكود والنماذج والخوارزميات مع انه من الافضل ان يتم التركيز ايضا على تطوير البيانات وجودتها وذلك لأهميتها في عملية Deployment والتي تهدف إلى وضع تلك النماذج في خط الانتاج عن طريق استخدامها في انظمة مختلفة يمكن الاستفادة منها بشكل واضح سواء تجاريا او لأغراض اخرى وهذا هو مجال MLOps تحديداً والذي يمكن تعريفه بأنه مجموعة من الممارسات التي تهدف إلى نشر نماذج تعلم الألة والمحافظة عليها في خطوط الإنتاج بشكل فعّال وموثوق
إذا قمنا بمقارنة البرمجيات التقليدية (التي تعتمد بشكل أساسي على الكود) والبرمجيات القائمة على الذكاء الاصطناعي (والتي تعتمد على نماذج التعلم والخوارزميات بالإضافة إلى البيانات) سنجد انه احيانا من الافضل تحسين الأداء في برمجيات الذكاء الاصطناعي عن طريق تحسين البيانات بدلا من تحسين الكود فقط وابقاء البيانات كعنصر ثابت!
بالعادة يتم اهدار مايقارب ٨٠٪ من العمل على نماذج التعلم على تنظيف وتجهيز البيانات وهي نسبة كبيرة نوعاً ما مما يحتم علينا السؤال المنطقي: لماذا لانضع اهمية كبرى لجودة البيانات المستخدمة في مثل تلك النماذج؟!
في الحقيقة، مايصنع الفارق المميز في عملية نشر النماذج للإنتاج Deployment هو جودة البيانات المستخدمة في تدريب تلك النماذج وتنوعها!
في دراسة حديثة تم اجراءها من قبل باحثين في جامعة كامبردج تم تسليط الضوء على مشكلة تشتت البيانات بشكل خاص عندما تكون البيانات قد تم تجميعها من عدة مصادر مختلفة والتي قد تكون لها هيكلة او تخطيط مختلف بالإضافة إلى ربما مسميات مختلفة وطريقة تخزين ووصول مختلفة وهذا مايجعل المهمة صعبة جداً لمهندسي تعلم الآلة في دمج تلك المعلومات وتصديرها في مجموعة بيانات واحدة نظيفة وجاهزة للاستخدام لتدريب نماذج التعلم.
هناك ايضاً الكثير من العقبات التي قد تعيق تقديم بيانات ضخمة بجودة عالية مثل وسم او وصف تلك البيانات Labelling خصوصاً اذا اضطر الأمر إلى وجود خبراء او مختصين لوسم تلك البيانات مثل البيانات الطبية. بناء على رأي الخبراء في مجال MLOps فإن احدى اكثر التحديات في عمليات نشر نماذج التعلم للإنتاج ونقلها إلى العالم الحقيقي هو صعوبة الوصول إلى بيانات متنوعة وموسومة بدقة عالية!
واخيرا هذه بعض النقاط الأساسية التي قدمها احد أعلام الذكاء الاصطناعي وتعلم الآلة Andrew Ng في مجال MLOps:
– يجب توفير بيانات ذات جودة عالية
– تطابق الوسوم Consistency هو من المفاتيح الأساسية لجودة البيانات وأي اختلاف في طريقة وضع او صنع الوسوم قد يسبب تراجع او تأخر في الأداء. على سبيل المثال في مجال رؤية الحاسوب وتحديد الأجسام، اختلاف الأدوات والطرق المستخدمة في رسم مربعات التوصيف bounding boxes على الأجسام قد يؤدي إلى نتيجة عكسية أو تراجع في الأداء
– تطوير جودة البيانات على نفس النموذج الأساسي قد يكون احيانا افضل من تغيير النموذج إلى افضل النماذج الحديثة
المصادر
Big Data To Good Data: Andrew Ng Urges ML Community To Be More Data-Centric And Less Model-Centric
Challenges in Deploying Machine Learning: a Survey of Case Studies