هناك العديد من أنظمة التعرف على الكلام التي بإمكانها تحليل الموجات الصوتية والتعرف على الكلام المنطوق، ومن ثم تحويله إلى شكل نص مكتوب كمُخرج للنظام، لكن هل فكرت يومًا أن هناك أنظمة يمكنها تحليل الكلام من خلال الاعتماد على الصور المرئية -أي الاعتماد على حركة الشفاه-؟
لحركات الوجه والشفاه علامات كثيرة يمكن الاستدلال منها على الأصوات المنطوقة، وبالتالي التعرف على الكلام وتحويله إلى نص، كما في أنظمة التعرف على الكلام من خلال الصوت.

ما هي أنظمة قراءة الشفاه Lip Reading Systems؟
هي أنظمة مساعدة، تعمل على التعرف على الكلام عن طريق استخراج علامات من حركات الوجه والشفاه للشخص المتحدث، بالاعتماد على العلامات البصرية المستخرجة من الصور فقط ودون الحاجة للصوت. تعمل هذه الأنظمة كأنظمة مساعدة للأشخاص الصم أو كبار السن ضمن عدد من استعمالات هذه الأنظمة. تعتمد أنظمة قراءة الشفاه على الصور المستخرجة من مقاطع الفيديو (frames) دون الحاجة للصوت، ويتم استخراج المعلومات المطلوبة من هذه الصور ليتم عندها التعرف على الكلام.
تطبق هذه الأنظمة على لغات مختلفة، فنجد العديد من التطبيقات المتقدمة فيما يخص اللغة الانجليزية، وللعربية كذلك نصيبٌ من المساهمات في هذا المجال.
آلية عمل أنظمة قراءة الشفاه
للحصول على نظام قادر على قراءة الشفاه بشكل آلي، يجب علينا أولًا الحصول على بيانات مخصصة لهذا الغرض، البيانات في حالة أنظمة قراءة الشفاه تكون صورًا مستخرجة من مقاطع فيديو لأشخاص يتحدثون الكلمات المطلوبة، ولكل مجموعة أو سلسلة صور عنوان، وهو الكلمة المذكورة، هذه البيانات ستكون بمثابة المرشد أو المثال لنموذج التعلم، حيث سيستخدمها للتدريب حتى يصبح جاهزًا للتعرف على عينات جديدة.

بعد توفير البيانات، سنقوم باستخراج بعض العلامات أو الخصائص منها، وهنا تختلف المنهجيات المتبعة، فبعض الأنظمة تعتمد على آليات التعلم العميق Deep learning لاستخراج هذه الخصائص، بينما أنظمة أخرى تعمل على استخراج بيانات محددة مسبقًا، مثل بيانات الحركة motion، أو بيانات الأطراف في الصورة edges، أو بيانات الألوان أو السطوح intensity، وغيرها.
يتم إمداد خوارزمية التعلم بالخصائص لكل عينة وبالعنوان الخاص بها -أي الكلمة-، وستقوم الخوارزمية بإنتاج النموذج بعد انتهاء عملية التدريب، سيكون هذا النموذج قادرًا على استقبال عينات جديدة بنفس الهيكل التي كانت عليه بيانات التدريب، ولكن دون العنوان label، لتكون مهمة النموذج هنا إيجاد العنوان أو الكلمة المنطوقة.
عند إمداد النظام بعينات جديدة وبشكل لحظي، يتعين علينا القيام ببعض الخطوات الإضافية، مثل تحديد الوجه ومنطقة الشفاه، والتي عادةً ما تكون محددة يدويًا في بيانات التدريب، تستخدم في هذه المراحل تقنيات وخوارزميات عديدة لتحديد الوجه من بين كل محتويات الصورة، ثم تحديد الشفاه.
يوضح الرسم في الأسفل مراحل بناء النموذج ثم آلية استعماله في نظام قراءة الشفاه.

لم تتوقف الأنظمة عند هذا فحسب، بل هناك بعض الأنظمة التي طورت آليات عمل يمكن من خلالها استخراج الموجات الصوتية الممثلة للكلام المنطوق مباشرةً من خلال الصور فقط، أي أننا يمكننا الحصول على المخرجات الصوتية لما تم نطقه إذا كان لدينا تصوير للشفاه وما حولها أثناء عملية النطق.

استعمالات أنظمة قراءة الشفاه
تعمل أنظمة قراءة الشفاه بشكل يعتمد على الصور ولا يحتاج لوجود الصوت كمدخل من المدخلات، وهذا ما يجعل أنظمة قراءة الشفاه مثالية في العديد من الاستخدامات والاحتياجات التي قد لا يتوفر فيها الصوت، أو يتوفر فيها الصوت، ولكن بجودة منخفضة، مثل بعض أنظمة المراقبة CCTV التي تعمل على التقاط الفيديو دون الصوت، أو الفيديوهات التي يتم التقاطها في بيئات تكثر فيها الضوضاء.
قراءة الشفاه في اللغة العربية
أنظمة قراءة الشفاه هي أنظمة قائمة على اللغة، وبالرغم من أن الكثير من الأبحاث تتم على اللغة الانجليزية ولغاتٍ أجنبية أخرى، إلا أن للعربية بعض الجهود والاسهامات، وكما تواجه اللغة العربية تحدياتٍ كثيرة في مجال معالجة اللغات الطبيعية Natural language processing، تواجه أيضًا تحدياتٍ كثيرة في مجال معقد مثل قراءة الشفاه Lip Reading، حيث اللغة كعاملٍ مشترك، نرفق هنا بعض الأبحاث التي أجريت على اللغة العربية:
مقال رائع يسلط الضوء على تقنية مهمة ومبتكرة. يعرض الفائدة الكبيرة لأنظمة قراءة الشفاه وكيفية تحويل الحركات البصرية إلى نصوص. يجمع بين التكنولوجيا والاحتياجات الاجتماعية بشكل متقن. شكرا لكم
أود أن اسألك الناشرة بعد شكر جهودها الرائعة عن اسم أي برنامج يطبق هذه التقنية حتى استعملها ،أو لمن أتوجه ليدلني على استخدام هذه التقنية؟ و هل لو احتجت مساعدة بشأن هذه التقنية من الناشرة سيكون بإمكانها مساعدتي؟
أود أن اسأل الناشرة بعد شكر جهودها الرائعة عن اسم أي برنامج يطبق هذه التقنية حتى استعملها ،أو لمن أتوجه ليدلني على استخدام هذه التقنية؟ و هل لو احتجت مساعدة بشأن هذه التقنية من الناشرة سيكون بإمكانها مساعدتي؟