أنظمة قراءة الشفاه | Lip Reading – Visual Speech Recognition Systems

الأحد 08 شعبان 1442ھ الأحد 21 مارس 2021م
فيسبوك
إكس
واتساب
تيليجرام
لينكدإن

616 كلمة

7 دقائق

المحتوى
هناك العديد من أنظمة التعرف على الكلام التي بإمكانها تحليل الموجات الصوتية والتعرف على الكلام المنطوق، ومن ثم تحويله إلى شكل نص مكتوب كمُخرج للنظام، لكن هل فكرت يومًا أن هناك أنظمة يمكنها تحليل الكلام من خلال الاعتماد على الصور المرئية -أي الاعتماد على حركة الشفاه-؟
لحركات الوجه والشفاه علامات كثيرة يمكن الاستدلال منها على الأصوات المنطوقة، وبالتالي التعرف على الكلام وتحويله إلى نص، كما في أنظمة التعرف على الكلام من خلال الصوت.
42A

ما هي أنظمة قراءة الشفاه Lip Reading Systems؟

هي أنظمة مساعدة، تعمل على التعرف على الكلام عن طريق استخراج علامات من حركات الوجه والشفاه للشخص المتحدث، بالاعتماد على العلامات البصرية المستخرجة من الصور فقط ودون الحاجة للصوت. تعمل هذه الأنظمة كأنظمة مساعدة للأشخاص الصم أو كبار السن ضمن عدد من استعمالات هذه الأنظمة. تعتمد أنظمة قراءة الشفاه على الصور المستخرجة من مقاطع الفيديو (frames) دون الحاجة للصوت، ويتم استخراج المعلومات المطلوبة من هذه الصور ليتم عندها التعرف على الكلام.
تطبق هذه الأنظمة على لغات مختلفة، فنجد العديد من التطبيقات المتقدمة فيما يخص اللغة الانجليزية، وللعربية كذلك نصيبٌ من المساهمات في هذا المجال.

آلية عمل أنظمة قراءة الشفاه

للحصول على نظام قادر على قراءة الشفاه بشكل آلي، يجب علينا أولًا الحصول على بيانات مخصصة لهذا الغرض، البيانات في حالة أنظمة قراءة الشفاه تكون صورًا مستخرجة من مقاطع فيديو لأشخاص يتحدثون الكلمات المطلوبة، ولكل مجموعة أو سلسلة صور عنوان، وهو الكلمة المذكورة، هذه البيانات ستكون بمثابة المرشد أو المثال لنموذج التعلم، حيث سيستخدمها للتدريب حتى يصبح جاهزًا للتعرف على عينات جديدة.
مثال لعينة من بيانات التدريب
مثال لعينة من بيانات التدريب
بعد توفير البيانات، سنقوم باستخراج بعض العلامات أو الخصائص منها، وهنا تختلف المنهجيات المتبعة، فبعض الأنظمة تعتمد على آليات التعلم العميق Deep learning لاستخراج هذه الخصائص، بينما أنظمة أخرى تعمل على استخراج بيانات محددة مسبقًا، مثل بيانات الحركة motion، أو بيانات الأطراف في الصورة edges، أو بيانات الألوان أو السطوح intensity، وغيرها.
يتم إمداد خوارزمية التعلم بالخصائص لكل عينة وبالعنوان الخاص بها -أي الكلمة-، وستقوم الخوارزمية بإنتاج النموذج بعد انتهاء عملية التدريب، سيكون هذا النموذج قادرًا على استقبال عينات جديدة بنفس الهيكل التي كانت عليه بيانات التدريب، ولكن دون العنوان label، لتكون مهمة النموذج هنا إيجاد العنوان أو الكلمة المنطوقة.
عند إمداد النظام بعينات جديدة وبشكل لحظي، يتعين علينا القيام ببعض الخطوات الإضافية، مثل تحديد الوجه ومنطقة الشفاه، والتي عادةً ما تكون محددة يدويًا في بيانات التدريب، تستخدم في هذه المراحل تقنيات وخوارزميات عديدة لتحديد الوجه من بين كل محتويات الصورة، ثم تحديد الشفاه.
يوضح الرسم في الأسفل مراحل بناء النموذج ثم آلية استعماله في نظام قراءة الشفاه.
42C
لم تتوقف الأنظمة عند هذا فحسب، بل هناك بعض الأنظمة التي طورت آليات عمل يمكن من خلالها استخراج الموجات الصوتية الممثلة للكلام المنطوق مباشرةً من خلال الصور فقط، أي أننا يمكننا الحصول على المخرجات الصوتية لما تم نطقه إذا كان لدينا تصوير للشفاه وما حولها أثناء عملية النطق.
42D

استعمالات أنظمة قراءة الشفاه

تعمل أنظمة قراءة الشفاه بشكل يعتمد على الصور ولا يحتاج لوجود الصوت كمدخل من المدخلات، وهذا ما يجعل أنظمة قراءة الشفاه مثالية في العديد من الاستخدامات والاحتياجات التي قد لا يتوفر فيها الصوت، أو يتوفر فيها الصوت، ولكن بجودة منخفضة، مثل بعض أنظمة المراقبة CCTV التي تعمل على التقاط الفيديو دون الصوت، أو الفيديوهات التي يتم التقاطها في بيئات تكثر فيها الضوضاء.

قراءة الشفاه في اللغة العربية

أنظمة قراءة الشفاه هي أنظمة قائمة على اللغة، وبالرغم من أن الكثير من الأبحاث تتم على اللغة الانجليزية ولغاتٍ أجنبية أخرى، إلا أن للعربية بعض الجهود والاسهامات، وكما تواجه اللغة العربية تحدياتٍ كثيرة في مجال معالجة اللغات الطبيعية Natural language processing، تواجه أيضًا تحدياتٍ كثيرة في مجال معقد مثل قراءة الشفاه Lip Reading، حيث اللغة كعاملٍ مشترك، نرفق هنا بعض الأبحاث التي أجريت على اللغة العربية:

المصادر

  • An Arabic Visual Dataset for Visual Speech Recognition
  • Lip movements recognition towards an automatic lip reading system for Myanmar consonants
  • GAN Network Can Do Lip Reading And Output Speech
نشرة فهم البريدية
لتبقى على اطلاع دائم على كل ما هو جديد مما تقدمه منصة فهم، انضم لنشرتنا البريدية.
حاصلة على بكالوريوس علوم الحاسبات من جامعة الملك عبدالعزيز - مسار الأنظمة الذكية، مهتمة بالذكاء الاصطناعي، وعلم البيانات، والرؤية الحاسوبية، عملت في مجال التعرف على الكلام بالاعتماد على الصور المرئية، مهتمة بنشر أبحاث الذكاء الاصطناعي والتدوين ونشر المحتوى العربي عبر الإنترنت.
  1. أحمد علي أحمد علي

    مقال رائع يسلط الضوء على تقنية مهمة ومبتكرة. يعرض الفائدة الكبيرة لأنظمة قراءة الشفاه وكيفية تحويل الحركات البصرية إلى نصوص. يجمع بين التكنولوجيا والاحتياجات الاجتماعية بشكل متقن. شكرا لكم

  2. دعاء لطفي دعاء لطفي

    أود أن اسألك الناشرة بعد شكر جهودها الرائعة عن اسم أي برنامج يطبق هذه التقنية حتى استعملها ،أو لمن أتوجه ليدلني على استخدام هذه التقنية؟ و هل لو احتجت مساعدة بشأن هذه التقنية من الناشرة سيكون بإمكانها مساعدتي؟

  3. دعاء لطفي دعاء لطفي

    أود أن اسأل الناشرة بعد شكر جهودها الرائعة عن اسم أي برنامج يطبق هذه التقنية حتى استعملها ،أو لمن أتوجه ليدلني على استخدام هذه التقنية؟ و هل لو احتجت مساعدة بشأن هذه التقنية من الناشرة سيكون بإمكانها مساعدتي؟

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *