بلغ عدد المتحدثين بالعربية أكثر من 300 مليون شخص عام 2019، على مستوى العالم وفقًا لموقع “Ethnologue” المختصّ باللغات. وعلى الرغم من كونها واحدة من أكبر اللغات العالمية (الخامسة عالميًّا)، إلا أنّها لم تلقَ سوى القليل من الاهتمام في مجال معالجة اللغات الطبيعية (NLP) التي تعدّ أحد العلوم الفرعية للذكاء الاصطناعي، وتهدف إلى أن تكون قادرة على معالجة وفهم وتحليل وتحويل اللغة الطبيعية التي ينتجها البشر. وتنشأ هذه المعالجة على شكل تطبيقاتٍ مثل تصنيف النصوص وتلخيصها، والتعرّف على الكلام وما إلى ذلك.
ويشكّل الحصول على البيانات المرحلة الأولى والأكثر أهمية لإنشاء مثل هذه التطبيقات. وبالنسبة للعربية، فإنّ أبحاث معالجة اللغة الطبيعية تعدّ محدودة، حيث يوجد نقص في مجموعات البيانات (Datasets) مقارنةُ باللغات الأخرى، بالإضافة إلى وجود العديد من التحديات على مستوى المعالجة الحاسوبية، فهي معروفة بأنّها متنوعة ومعقدة لغويًّا. ولأنّ البيانات تشكّل العنصر الأساسي في تطوير نظام معالجة اللغة الطبيعية، فجمع بيانات تدريب عربية عالية الجودة قد يشكّل عقبةً كبرى. ولا بدّ من الإشارة إلى أنّ بيانات المعالجة تأتي في أشكالٍ عديدة، بما فيها النصوص المكتوبة، والكتابة التوضيحية بخط اليد، والتسجيلات الصوتية.. ومن خلال هذا الدرس، سنعرض لكم قائمة بأبرز مجموعات البيانات العربية التي تمّ إيجادها:
1- SANAD
هي مجموعة بيانات لمقالات إخبارية. وتمّ نشرها عام 2019 بغرض تصنيف النصوص. وقد تمّ جمع البيانات من ثلاثة مواقع عبر الأنترنت. وهي تشتمل على 7 فئات كما يوضح الجدول أدناه. وقد تمّ تنظيم مجموعة البيانات في 3 مجلدات، يمثّل كل منها المصدر الذي أُخذت منه المقالات. وداخل كل مجلد، توجد مجلدات فرعية للفئات المختلفة وكل منها يحتوي على ملفات نصية مختلفة. وعلى الرغم من أنّ عدد المقالات في مجموعة البيانات كبير، إلا أنّه لم يتمّ التحقق من صحتها باستخدام نماذج التعلّم الآلي. بالإضافة إلى ذلك، يجب معالجة مجموعة البيانات مسبقًا بحيث يمكن استخدامها، وتستغرق عملية التنظيف وقتًا طويلًا نظرًا لحجم مجموعة البيانات.
2- TALAA-ASC
تمّ إنشاء هذه المجموعة، لغرض ضغط الجمل لمعالجة اللغة العربية الطبيعية، وهي عملية هدفها التقليل من كمية البيانات التي نحتاج إلى تخزينها في إحدى وسائط التخزين. وتشتمل على 5 فئات من المقالات مثل الطب والرياضة والتكنولوجيا. وتمّ جمع ما مجموعه 70 مقالًا من مواقع الصحف. ويتمّ استخدام بنية XML (لغة الترميز القابلة للامتداد) لتمثيل البيانات كما هو موضح في الشكل أدناه. ويجري إنشاء نسختين من كلّ مقالة: الأولى هي النسخة الأصلية، بينما الثانية تكون النسخة المضغوطة.
3- Arabic Poetry Dataset
تحتوي مجموعة البيانات هذه على أكثر من 55 ألف قصيدة تم الاستعانة بها عبر مؤسسة “الأدب” المهتمة بدعم المحتوى العربي عبر الانترنت. ويعود تاريخ هذه القصائد إلى القرن السادس عشر حتى يومنا هذا. وهي تتضمّن مجمل البيانات الوصفية (الميتاداتا) الخاصة بالقصائد من إسم الشاعر وفئة القصيدة وغيرها من البيانات.
4- Yarmouk Arabic OCR Dataset
التعرّف الضوئي على الحروف (OCR) هي عملية تهدف للتعرّف تلقائيًا على محتوى المستندات الممسوحة ضوئيًا أو الصور. ويستخدم برنامج “OCR” تقنية التعلّم الآلي للتعرف على الحروف. يتعين على مثل هذه البرمجيات أن تمرّ بمرحلة تدريب لكي تتعلم كيف تتعرف على الحروف في النص. وقد قام مجموعة من الباحثين في جامعتي اليرموك بالأردن والأمريكية في الكويت، بإنشاء منصة مجموعة بيانات “OCR” تحتوي على أكثر من 4500 مقالة تمّ أخذها من “ويكيبيديا” فضلًا عن قرابة 9 آلاف صورة. ويتم استخراج مجموعة البيانات المقترحة بشكلٍ عشوائي للحصول على مواضيع مختلفة.
5- Arabic Handwritten Characters Dataset
تواجه أنظمة التعرّف على الحروف العربية المكتوبة بخط اليد عدّة تحديات، بما في ذلك الاختلاف غير المحدود في أشكال الكتابة اليدوية البشرية. ومع مجموعة البيانات هذه، يتم الاستعانة بالتعلّم العميق من أجل تصميم نموذج التعرّف على الأحرف المكتوبة. وهي تتضمّن 60 ألف صورة تدريبية، و 10 آلاف صورة اختبار كتبها 700 كاتب بشري.
6- Arabic Natural Audio Dataset
إنّ التعبير العاطفي هو جزءٌ أساسي من التفاعل البشري. يمكن أن يحمل النصّ نفسه معاني مختلفة عند التعبير عنه. وبالتالي فإنّ فهم النص وحده لا يكفي للحصول على معنى الكلام. وتعدّ هذه المجموعة من أوائل مجموعات البيانات الصوتية العربية التي تهدف إلى التعرّف على المشاعر والعواطف من خلال الكلام. وقد تمّ تنزيل ثمانية مقاطع فيديو مكالمات مباشرة بين مذيع وإنسان خارج الاستوديو من برامج حوارية عربية عبر الإنترنت. ثم تقسيم كل مقطع فيديو إلى أدوار: المتصلون والمستقبلون. ولتصنيف كل فيديو، طُلِب من 18 شخصًا الاستماع للمقاطع، وتحديد ماهية شعورهم حيالها بين السعادة والغضب والدهشة.
7- RATS Language Identification
تمّ تطويرها من قبل اتحاد البيانات اللغوية (LDC) وهي تتألّف من حوالي 5400 ساعة من المحادثات الهاتفية لعدد من اللغات بينها العربية، مع وضع ملاحظاتٍ على مقاطع الكلام مثل الحدود الزمنية لمدة الكلام. ويتجلّى الهدف من “RATS” في تطوير أنظمة تقنية قادرة على اكتشاف الكلام البشري، وتحديد اللغة، والكلمات الرئيسية وغيرها من المعايير.
أولاً:
مصر لحالها فيها ١٠٠ مليون عربي.
بلاد الشام والعراق ١٠٠ مليون عربي.
دول المغرب العربي ١٠٠ مليون عربي.
الجزيرة العربية ١٠٠ مليون عربي.
أماكن مختلفة من العالم ..؟
متحدثو العربية كلغة ثانية ..؟
المجموع: ..؟
ثانياً:
شكراً للسيد محمد على هذه المعلومات القيمة.