يعد تخصص فهم وتحليل اللغة Natural Language Processing أو اختصارا ( NLP ) أحد اهم وأقدم مجالات الذكاء الإصطناعي. ولكن منذ البداية كانت هناك عدة عقبات تواجه المجال مقارنة بمجالات أخرى من الذكاء الإصطناعي ، من أبرز هذه العقبات ما يلي
1-تركيب اللغة يختلف من لغة لأخرى
على عكس الصور مثلا التي تتكون من شبكة أرقام (pixels ) وهي صيغة موحدة عالميا ، فإن اللغات في الجهة المقابلة لها صيغة متفردة . فمثلا اللغة الصينية تتكون من كلمات ومعاني وليس مجموعة حروف تكون كلمات ، بينما اللغات اللاتينية لها حروف تكون كلمات والكلمات تكون جمل . وحتى في للغات التي تكون تركيبة الكلمات واضحة ، فإنه من الصعب وضع قواعد موحدة تنطبق عليها كافة اللغات . ذلك يجعل من الصعب عمل خوارزمية تعمل على كافة اللغات بشكل مثالي ، وإنما ينبغي عمل خوارزميات تتماشى مع كل لغة بحد ذاتها أو خوارزمية عامة يتم تخصيصها (fine-tune) للغة المستهدفة . لذلك نرى خوارزميات اللغة الإنجليزية و الصينية متقدمة على كافة اللغات الأخرى لكثرة الباحثين في هذه اللغتين ، بينما نرى اللغة العربية مع الأسف من أضعف اللغات في مجال الذكاء الإصطناعي وفي كافة علوم الحاسب بشكل عام !
2- نفس الكلمات لها معاني مختلفة
حيث انه لا يوجد ربط مباشر بين المعاني والكلمات في معظم اللغات: فمثلا كلمة Apple قد تعني اسم الشركة المعروفة او نوع من الفاكهة . وعندما تكون هذه الكلمة ضمن جملة ، فإنه من الصعب على الخوارزميات ( حتى التي تعتمد على تعلم الآلة ) فهم أو تفسير المعنى وبالتالي ترجمة الجملة بين لغة و أخرى مثلا . في معظم الحلات يكون المضمون (context) هو الطريقة الوحيدة لمعرفة معنى الكلمة و هذا ما تقوم به أفضل الخوارزميات في تبسيط الكلمات لأرقام وتعرف ب (Word2Vec)
نفس الكلمات قد تعني معان مختلفة , مثل كلمة (Apple) قد نعني شركة التكنلوجيا أو تعني الفاكهة. كبشر يمكن التمييز بسهولة بين المعنيين , ليس بالنسبة للخوارزميات, فقد لا تعرف الفرق !
3- ارتباط الثقافة باللغة
اللغة ليست وسيلة تواصل فحسب ، بل هي إطار عمل للتفكير و مخزن لثقافة الشعوب . هذا ما وضع تعلم اللغة من ضمن أولويات تعليم الطفل في المدرسة لتأطير تفكير الطفل و قدرته على استقبال العلوم فيما بعد . ولذلك عندما بدأ البحث في الذكاء الإصطناعي في لقاء دورتموث الشهير عام ١٩٥٩ ( أول ورقة بحثية عن الذكاء الإصطناعي ) كان فهم اللغة و تحليلها من أولويات البحث و أهدافه حيث كان الظن أنه في حال تم حل شفرة اللغة فإنه سنتمكن من فهم الذكاء البشري بشكل كبير . بعد مرور اكثر من ستين عام لا تزال كثير من المعضلات في تحليل اللغة مستمرة ناهيك عن الذكاء البشري . و لأن ثقافة البشر تتطور مع الوقت ، تتطور طريقة تواصلهم باللغة وبالتالي طريقة التحليل يجب ان تكون متغيرة مع الوقت. كل ذلك يضع عوائق لنجاح تحليل كامل للغة !
ترتبط اللغة بالثقافة , وكثير من الجمل لها معاني تاريخية تعكس مفاهيم معينة مفهومة من الشعوب ولا تعكس المعنى الحرفي. ذلك يعقد أكثر من مهمة خوارزميات تعلم الآلة والذكاء الإصطناعي
4- سلسلة الاعتماد (dependency chain)
هذه مشكلة مشتركة مع مجالات أخرى مثل التحكم بالروبوتات (robot control) وفهم الفيديوهات (video understanding). حيث تكمن المشكلة انه البيانات الحالية تعتمد على البيانات السابقة و انه لا نعلم متى تنتهي سلسلة الاعتماد (dependency chain) . فقد تعتمد كلمة معينة على كلمات سبقتها بفقرة او فقرتين ويكون لها محور أساس في المعنى , والخلل في فهم كلمة معينة و تصنيفها قد يؤثر على الجملة التالية و بالتالي سيختل كافة المعنى لكل الفقرة وبالتالي كافة النص . ليتم حل هذه المشكلة عادة ما يتم النظر بأكثر من زاوية لتجنب الخلل حيث في حال فشل احد الزوايا لا تفشل الأخرى وبالتالي ينجح النظام ككل . هاذا ما يتم اتباعه في السيارات ذاتية القيادة لتجنب فشل سلسلة الاعتماد!