أربعة تعقيدات في فهم وتحليل اللغة

السبت 15 شعبان 1440ھ السبت 20 أبريل 2019م
فيسبوك
تويتر
واتساب
تيليجرام
لينكدإن
أربعة تعقيدات في فهم وتحليل اللغة
المحتوى

يعد تخصص فهم وتحليل اللغة Natural Language Processing أو اختصارا ( NLP ) أحد اهم وأقدم مجالات الذكاء الإصطناعي. ولكن منذ البداية كانت هناك عدة عقبات تواجه المجال مقارنة بمجالات أخرى من الذكاء الإصطناعي ، من أبرز هذه العقبات ما يلي

1-تركيب اللغة يختلف من لغة لأخرى

على عكس الصور مثلا التي تتكون من شبكة أرقام  (pixels )  وهي صيغة موحدة عالميا ، فإن اللغات في الجهة المقابلة لها صيغة متفردة . فمثلا اللغة الصينية تتكون من كلمات ومعاني وليس مجموعة حروف تكون كلمات ، بينما اللغات اللاتينية لها حروف تكون كلمات والكلمات تكون جمل . وحتى في للغات التي تكون تركيبة الكلمات واضحة ، فإنه من الصعب وضع قواعد موحدة تنطبق عليها كافة اللغات . ذلك يجعل من الصعب عمل خوارزمية تعمل على كافة اللغات بشكل مثالي ، وإنما ينبغي عمل خوارزميات تتماشى مع كل لغة بحد ذاتها أو خوارزمية عامة يتم تخصيصها (fine-tune) للغة المستهدفة . لذلك نرى خوارزميات اللغة الإنجليزية و الصينية متقدمة على كافة اللغات الأخرى لكثرة الباحثين في هذه اللغتين ، بينما نرى اللغة العربية مع الأسف من أضعف اللغات في مجال الذكاء الإصطناعي وفي كافة علوم الحاسب بشكل عام ! 

2- نفس الكلمات لها معاني مختلفة

حيث انه لا يوجد ربط مباشر بين المعاني والكلمات في معظم اللغات: فمثلا كلمة Apple قد تعني اسم الشركة المعروفة او نوع من الفاكهة . وعندما تكون هذه الكلمة ضمن جملة ، فإنه من الصعب على الخوارزميات ( حتى التي تعتمد على تعلم الآلة ) فهم أو تفسير المعنى وبالتالي ترجمة الجملة بين لغة و أخرى مثلا . في معظم الحلات يكون المضمون (context) هو الطريقة الوحيدة لمعرفة معنى الكلمة و هذا ما تقوم به أفضل الخوارزميات في تبسيط الكلمات لأرقام وتعرف ب (Word2Vec)

نفس الكلمات قد تعني معان مختلفة , مثل كلمة (Apple) قد نعني شركة التكنلوجيا أو تعني الفاكهة. كبشر يمكن التمييز بسهولة بين المعنيين , ليس بالنسبة للخوارزميات, فقد لا تعرف الفرق !

3- ارتباط الثقافة باللغة

اللغة ليست وسيلة تواصل فحسب ، بل هي إطار عمل للتفكير و مخزن لثقافة الشعوب . هذا ما وضع تعلم اللغة من ضمن أولويات تعليم الطفل في المدرسة لتأطير تفكير الطفل و قدرته على استقبال العلوم فيما بعد . ولذلك عندما بدأ البحث في الذكاء الإصطناعي في لقاء دورتموث الشهير عام ١٩٥٩ ( أول ورقة بحثية عن الذكاء الإصطناعي ) كان فهم اللغة و تحليلها من أولويات البحث و أهدافه حيث كان الظن أنه في حال تم حل شفرة اللغة فإنه سنتمكن من فهم الذكاء البشري بشكل كبير . بعد مرور اكثر من ستين عام لا تزال كثير من المعضلات في تحليل اللغة مستمرة ناهيك عن الذكاء البشري . و لأن ثقافة البشر تتطور مع الوقت ، تتطور طريقة تواصلهم باللغة وبالتالي طريقة التحليل يجب ان تكون متغيرة مع الوقت. كل ذلك يضع عوائق لنجاح تحليل كامل للغة  !

ترتبط اللغة بالثقافة , وكثير من الجمل لها معاني تاريخية تعكس مفاهيم معينة مفهومة من الشعوب ولا تعكس المعنى الحرفي. ذلك يعقد أكثر من مهمة خوارزميات تعلم الآلة والذكاء الإصطناعي

4- سلسلة الاعتماد (dependency chain)

هذه مشكلة مشتركة مع مجالات أخرى مثل التحكم بالروبوتات (robot control) وفهم الفيديوهات (video understanding). حيث تكمن المشكلة انه البيانات الحالية تعتمد على البيانات السابقة و انه لا نعلم متى تنتهي سلسلة الاعتماد (dependency chain) . فقد تعتمد كلمة معينة على كلمات سبقتها بفقرة او فقرتين ويكون لها محور أساس في المعنى , والخلل في فهم كلمة معينة و تصنيفها قد يؤثر على الجملة التالية و بالتالي سيختل كافة المعنى لكل الفقرة وبالتالي كافة النص . ليتم حل هذه المشكلة عادة ما يتم النظر بأكثر من زاوية لتجنب الخلل حيث في حال فشل احد الزوايا لا تفشل الأخرى وبالتالي ينجح النظام ككل . هاذا ما يتم اتباعه في السيارات ذاتية القيادة لتجنب فشل سلسلة الاعتماد!

نشرة فهم البريدية
لتبقى على اطلاع دائم على كل ما هو جديد مما تقدمه منصة فهم، انضم لنشرتنا البريدية.
طالب دكتوراة في الذكاء الإصطناعي في جامعة الملك عبدالله للعلوم والتقنية، ماجستير في الهندسة الكهربائية – تخصص الذكاء الإصطناعي من جامعة الملك عبدالله للعلوم والتقنية، بكالوريوس هندسة كهربائية من جامعة الملك فهد للبترول والمعادن، أحب الابتكار والتقنية وريادة الأعمال.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *