ما أهم مجموعات البيانات العربية في معالجة اللغات الطبيعية؟

الأربعاء 24 ربيع الثاني 1442ھ الأربعاء 9 ديسمبر 2020م
فيسبوك
إكس
واتساب
تيليجرام
لينكدإن

760 كلمة

8 دقائق

المحتوى

بلغ عدد المتحدثين بالعربية أكثر من 300 مليون شخص عام 2019، على مستوى العالم وفقًا لموقع “Ethnologue” المختصّ باللغات. وعلى الرغم من كونها واحدة من أكبر اللغات العالمية (الخامسة عالميًّا)، إلا أنّها لم تلقَ سوى القليل من الاهتمام في مجال معالجة اللغات الطبيعية (NLP) التي تعدّ أحد العلوم الفرعية للذكاء الاصطناعي، وتهدف إلى أن تكون قادرة على معالجة وفهم وتحليل وتحويل اللغة الطبيعية التي ينتجها البشر. وتنشأ هذه المعالجة على شكل تطبيقاتٍ مثل تصنيف النصوص وتلخيصها، والتعرّف على الكلام وما إلى ذلك.

ويشكّل الحصول على البيانات المرحلة الأولى والأكثر أهمية لإنشاء مثل هذه التطبيقات. وبالنسبة للعربية، فإنّ أبحاث معالجة اللغة الطبيعية تعدّ محدودة، حيث يوجد نقص في مجموعات البيانات (Datasets) مقارنةُ باللغات الأخرى، بالإضافة إلى وجود العديد من التحديات على مستوى المعالجة الحاسوبية، فهي معروفة بأنّها متنوعة ومعقدة لغويًّا. ولأنّ البيانات تشكّل العنصر الأساسي في تطوير نظام معالجة اللغة الطبيعية، فجمع بيانات تدريب عربية عالية الجودة قد يشكّل عقبةً كبرى. ولا بدّ من الإشارة إلى أنّ بيانات المعالجة تأتي في أشكالٍ عديدة، بما فيها النصوص المكتوبة، والكتابة التوضيحية بخط اليد، والتسجيلات الصوتية.. ومن خلال هذا الدرس، سنعرض لكم قائمة بأبرز مجموعات البيانات العربية التي تمّ إيجادها:

1- SANAD

هي مجموعة بيانات لمقالات إخبارية. وتمّ نشرها عام 2019 بغرض تصنيف النصوص. وقد تمّ جمع البيانات من ثلاثة مواقع عبر الأنترنت. وهي تشتمل على 7 فئات كما يوضح الجدول أدناه. وقد تمّ تنظيم مجموعة البيانات في 3 مجلدات، يمثّل كل منها المصدر الذي أُخذت منه المقالات. وداخل كل مجلد، توجد مجلدات فرعية للفئات المختلفة وكل منها يحتوي على ملفات نصية مختلفة. وعلى الرغم من أنّ عدد المقالات في مجموعة البيانات كبير، إلا أنّه لم يتمّ التحقق من صحتها باستخدام نماذج التعلّم الآلي. بالإضافة إلى ذلك، يجب معالجة مجموعة البيانات مسبقًا بحيث يمكن استخدامها، وتستغرق عملية التنظيف وقتًا طويلًا نظرًا لحجم مجموعة البيانات.

SANAD 1
توزيع مجموعة البيانات في “SANAD”، المصدر: Sciencedirect

2- TALAA-ASC

تمّ إنشاء هذه المجموعة، لغرض ضغط الجمل لمعالجة اللغة العربية الطبيعية، وهي عملية هدفها التقليل من كمية البيانات التي نحتاج إلى تخزينها في إحدى وسائط التخزين. وتشتمل على 5 فئات من المقالات مثل الطب والرياضة والتكنولوجيا. وتمّ جمع ما مجموعه 70 مقالًا من مواقع الصحف. ويتمّ استخدام بنية XML (لغة الترميز القابلة للامتداد) لتمثيل البيانات كما هو موضح في الشكل أدناه. ويجري إنشاء نسختين من كلّ مقالة: الأولى هي النسخة الأصلية، بينما الثانية تكون النسخة المضغوطة.

Talaa
عيّنة من TALAA-ASC، المصدر: IEEE

3- Arabic Poetry Dataset

تحتوي مجموعة البيانات هذه على أكثر من 55 ألف قصيدة تم الاستعانة بها عبر مؤسسة “الأدب” المهتمة بدعم المحتوى العربي عبر الانترنت. ويعود تاريخ هذه القصائد إلى القرن السادس عشر حتى يومنا هذا. وهي تتضمّن مجمل البيانات الوصفية (الميتاداتا) الخاصة بالقصائد من إسم الشاعر وفئة القصيدة وغيرها من البيانات.

4- Yarmouk Arabic OCR Dataset

التعرّف الضوئي على الحروف (OCR) هي عملية تهدف للتعرّف  تلقائيًا على محتوى المستندات الممسوحة ضوئيًا أو الصور. ويستخدم برنامج “OCR” تقنية التعلّم الآلي للتعرف على الحروف. يتعين على مثل هذه البرمجيات أن تمرّ بمرحلة تدريب لكي تتعلم كيف تتعرف على الحروف في النص. وقد قام مجموعة من الباحثين في جامعتي اليرموك بالأردن والأمريكية في الكويت، بإنشاء منصة مجموعة بيانات “OCR” تحتوي على أكثر من 4500 مقالة تمّ أخذها من “ويكيبيديا” فضلًا عن قرابة 9 آلاف صورة. ويتم استخراج  مجموعة البيانات المقترحة بشكلٍ عشوائي للحصول على مواضيع مختلفة.

4
مثال عن استخدام خوارزمية للتعرّف الضوئي على الحروف، المصدر: Springer

5- Arabic Handwritten Characters Dataset

تواجه أنظمة التعرّف على الحروف العربية المكتوبة بخط اليد عدّة تحديات، بما في ذلك الاختلاف غير المحدود في أشكال الكتابة اليدوية البشرية. ومع مجموعة البيانات هذه، يتم الاستعانة بالتعلّم العميق من أجل تصميم نموذج التعرّف على الأحرف المكتوبة. وهي تتضمّن 60 ألف صورة تدريبية، و 10 آلاف صورة اختبار كتبها 700 كاتب بشري.

6- Arabic Natural Audio Dataset 

إنّ التعبير العاطفي هو جزءٌ أساسي من التفاعل البشري. يمكن أن يحمل النصّ نفسه معاني مختلفة عند التعبير عنه. وبالتالي فإنّ فهم النص وحده لا يكفي للحصول على معنى الكلام. وتعدّ هذه المجموعة من أوائل مجموعات البيانات الصوتية العربية التي تهدف إلى التعرّف على المشاعر والعواطف من خلال الكلام. وقد تمّ تنزيل ثمانية مقاطع فيديو مكالمات مباشرة بين مذيع وإنسان خارج الاستوديو من برامج حوارية عربية عبر الإنترنت. ثم تقسيم كل مقطع فيديو إلى أدوار: المتصلون والمستقبلون. ولتصنيف كل فيديو، طُلِب من 18 شخصًا الاستماع للمقاطع، وتحديد ماهية شعورهم حيالها بين السعادة والغضب والدهشة.

6
مثال عن مجموعة بيانات للتعرّف عن المشاعر، المصدر: Researchgate

7- RATS Language Identification

تمّ تطويرها من قبل اتحاد البيانات اللغوية (LDC) وهي تتألّف من حوالي 5400 ساعة من المحادثات الهاتفية لعدد من اللغات بينها العربية، مع وضع ملاحظاتٍ على مقاطع الكلام مثل الحدود الزمنية لمدة الكلام. ويتجلّى الهدف من “RATS” في تطوير أنظمة تقنية قادرة على اكتشاف الكلام البشري، وتحديد اللغة، والكلمات الرئيسية وغيرها من المعايير.

نشرة فهم البريدية
لتبقى على اطلاع دائم على كل ما هو جديد مما تقدمه منصة فهم، انضم لنشرتنا البريدية.
باحث في مجال الذكاء الاصطناعي. كاتب تقني. يرتكز عمله المهني على توفير المهارات الإستراتيجية لدعم وفهم تقنية الذكاء الاصطناعي في المنطقة العربية. أنجز العديد من الدراسات والمقالات العلمية في الذكاء الاصطناعي، وتركّز أبحاثه على التأثير الحقيقي لهذه التقنية في مختلف المجالات.
  1. ناظم بن ناظر ناظم بن ناظر

    أولاً:
    مصر لحالها فيها ١٠٠ مليون عربي.
    بلاد الشام والعراق ١٠٠ مليون عربي.
    دول المغرب العربي ١٠٠ مليون عربي.
    الجزيرة العربية ١٠٠ مليون عربي.
    أماكن مختلفة من العالم ..؟
    متحدثو العربية كلغة ثانية ..؟
    المجموع: ..؟

    ثانياً:
    شكراً للسيد محمد على هذه المعلومات القيمة.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *