أنظمة قراءة الشفاه | Lip Reading – Visual Speech Recognition Systems

الأحد 08 شعبان 1442ھ الأحد 21 مارس 2021م

616 كلمة

7 دقائق

هناك العديد من أنظمة التعرف على الكلام التي بإمكانها تحليل الموجات الصوتية والتعرف على الكلام المنطوق، ومن ثم تحويله إلى شكل نص مكتوب كمُخرج للنظام، لكن هل فكرت يومًا أن هناك أنظمة يمكنها تحليل الكلام من خلال الاعتماد على الصور المرئية -أي الاعتماد على حركة الشفاه-؟

لحركات الوجه والشفاه علامات كثيرة يمكن الاستدلال منها على الأصوات المنطوقة، وبالتالي التعرف على الكلام وتحويله إلى نص، كما في أنظمة التعرف على الكلام من خلال الصوت.

ما هي أنظمة قراءة الشفاه Lip Reading Systems؟

هي أنظمة مساعدة، تعمل على التعرف على الكلام عن طريق استخراج علامات من حركات الوجه والشفاه للشخص المتحدث، بالاعتماد على العلامات البصرية المستخرجة من الصور فقط ودون الحاجة للصوت. تعمل هذه الأنظمة كأنظمة مساعدة للأشخاص الصم أو كبار السن ضمن عدد من استعمالات هذه الأنظمة. تعتمد أنظمة قراءة الشفاه على الصور المستخرجة من مقاطع الفيديو (frames) دون الحاجة للصوت، ويتم استخراج المعلومات المطلوبة من هذه الصور ليتم عندها التعرف على الكلام.

تطبق هذه الأنظمة على لغات مختلفة، فنجد العديد من التطبيقات المتقدمة فيما يخص اللغة الانجليزية، وللعربية كذلك نصيبٌ من المساهمات في هذا المجال.

آلية عمل أنظمة قراءة الشفاه

للحصول على نظام قادر على قراءة الشفاه بشكل آلي، يجب علينا أولًا الحصول على بيانات مخصصة لهذا الغرض، البيانات في حالة أنظمة قراءة الشفاه تكون صورًا مستخرجة من مقاطع فيديو لأشخاص يتحدثون الكلمات المطلوبة، ولكل مجموعة أو سلسلة صور عنوان، وهو الكلمة المذكورة، هذه البيانات ستكون بمثابة المرشد أو المثال لنموذج التعلم، حيث سيستخدمها للتدريب حتى يصبح جاهزًا للتعرف على عينات جديدة.

بعد توفير البيانات، سنقوم باستخراج بعض العلامات أو الخصائص منها، وهنا تختلف المنهجيات المتبعة، فبعض الأنظمة تعتمد على آليات التعلم العميق Deep learning لاستخراج هذه الخصائص، بينما أنظمة أخرى تعمل على استخراج بيانات محددة مسبقًا، مثل بيانات الحركة motion، أو بيانات الأطراف في الصورة edges، أو بيانات الألوان أو السطوح intensity، وغيرها.

يتم إمداد خوارزمية التعلم بالخصائص لكل عينة وبالعنوان الخاص بها -أي الكلمة-، وستقوم الخوارزمية بإنتاج النموذج بعد انتهاء عملية التدريب، سيكون هذا النموذج قادرًا على استقبال عينات جديدة بنفس الهيكل التي كانت عليه بيانات التدريب، ولكن دون العنوان label، لتكون مهمة النموذج هنا إيجاد العنوان أو الكلمة المنطوقة.

عند إمداد النظام بعينات جديدة وبشكل لحظي، يتعين علينا القيام ببعض الخطوات الإضافية، مثل تحديد الوجه ومنطقة الشفاه، والتي عادةً ما تكون محددة يدويًا في بيانات التدريب، تستخدم في هذه المراحل تقنيات وخوارزميات عديدة لتحديد الوجه من بين كل محتويات الصورة، ثم تحديد الشفاه.

يوضح الرسم في الأسفل مراحل بناء النموذج ثم آلية استعماله في نظام قراءة الشفاه.

لم تتوقف الأنظمة عند هذا فحسب، بل هناك بعض الأنظمة التي طورت آليات عمل يمكن من خلالها استخراج الموجات الصوتية الممثلة للكلام المنطوق مباشرةً من خلال الصور فقط، أي أننا يمكننا الحصول على المخرجات الصوتية لما تم نطقه إذا كان لدينا تصوير للشفاه وما حولها أثناء عملية النطق.

استعمالات أنظمة قراءة الشفاه

تعمل أنظمة قراءة الشفاه بشكل يعتمد على الصور ولا يحتاج لوجود الصوت كمدخل من المدخلات، وهذا ما يجعل أنظمة قراءة الشفاه مثالية في العديد من الاستخدامات والاحتياجات التي قد لا يتوفر فيها الصوت، أو يتوفر فيها الصوت، ولكن بجودة منخفضة، مثل بعض أنظمة المراقبة CCTV التي تعمل على التقاط الفيديو دون الصوت، أو الفيديوهات التي يتم التقاطها في بيئات تكثر فيها الضوضاء.

قراءة الشفاه في اللغة العربية

أنظمة قراءة الشفاه هي أنظمة قائمة على اللغة، وبالرغم من أن الكثير من الأبحاث تتم على اللغة الانجليزية ولغاتٍ أجنبية أخرى، إلا أن للعربية بعض الجهود والاسهامات، وكما تواجه اللغة العربية تحدياتٍ كثيرة في مجال معالجة اللغات الطبيعية Natural language processing، تواجه أيضًا تحدياتٍ كثيرة في مجال معقد مثل قراءة الشفاه Lip Reading، حيث اللغة كعاملٍ مشترك، نرفق هنا بعض الأبحاث التي أجريت على اللغة العربية:

المصادر

An Arabic Visual Dataset for Visual Speech Recognition
Lip movements recognition towards an automatic lip reading system for Myanmar consonants
GAN Network Can Do Lip Reading And Output Speech

نشرة فهم البريدية

لتبقى على اطلاع دائم على كل ما هو جديد مما تقدمه منصة فهم، انضم لنشرتنا البريدية.

انضم الآن

شفاء سعد

حاصلة على بكالوريوس علوم الحاسبات من جامعة الملك عبدالعزيز - مسار الأنظمة الذكية، مهتمة بالذكاء الاصطناعي، وعلم البيانات، والرؤية الحاسوبية، عملت في مجال التعرف على الكلام بالاعتماد على الصور المرئية، مهتمة بنشر أبحاث الذكاء الاصطناعي والتدوين ونشر المحتوى العربي عبر الإنترنت.

أحمد علي

مقال رائع يسلط الضوء على تقنية مهمة ومبتكرة. يعرض الفائدة الكبيرة لأنظمة قراءة الشفاه وكيفية تحويل الحركات البصرية إلى نصوص. يجمع بين التكنولوجيا والاحتياجات الاجتماعية بشكل متقن. شكرا لكم

رد
دعاء لطفي

أود أن اسألك الناشرة بعد شكر جهودها الرائعة عن اسم أي برنامج يطبق هذه التقنية حتى استعملها ،أو لمن أتوجه ليدلني على استخدام هذه التقنية؟ و هل لو احتجت مساعدة بشأن هذه التقنية من الناشرة سيكون بإمكانها مساعدتي؟

رد
دعاء لطفي

أود أن اسأل الناشرة بعد شكر جهودها الرائعة عن اسم أي برنامج يطبق هذه التقنية حتى استعملها ،أو لمن أتوجه ليدلني على استخدام هذه التقنية؟ و هل لو احتجت مساعدة بشأن هذه التقنية من الناشرة سيكون بإمكانها مساعدتي؟

رد

أنظمة قراءة الشفاه | Lip Reading – Visual Speech Recognition Systems

616 كلمة

7 دقائق

ما هي أنظمة قراءة الشفاه Lip Reading Systems؟

آلية عمل أنظمة قراءة الشفاه

استعمالات أنظمة قراءة الشفاه

قراءة الشفاه في اللغة العربية

المصادر

اترك تعليقاً إلغاء الرد

سلسلة الذكاء الاصطناعي والاستشعار عن بعد – الجزء الثاني

سلسلة الذكاء الاصطناعي والاستشعار عن بعد – الجزء الأول

ماذا يمكن للذكاء الاصطناعي أن يقدّم للرعاية الصحية في المستقبل؟

توليد المعلومات المدعوم بالاسترجاع (RAG) باستخدام Gemma لشرح مفاهيم علم البيانات الأساسية

ما هي الفرص العملية للذكاء الاصطناعي في التجارب السريرية؟

كيف يتم الاستفادة من قدرات الذكاء الاصطناعي في القطاع العسكري؟

محمد معاذ

عبدالله حمدي

محمد عثمان

صلاح الكفراوي

مروج المهاجري

رقيا بن صافي

أنظمة قراءة الشفاه | Lip Reading – Visual Speech Recognition Systems

616 كلمة

7 دقائق

ما هي أنظمة قراءة الشفاه Lip Reading Systems؟

آلية عمل أنظمة قراءة الشفاه

استعمالات أنظمة قراءة الشفاه

قراءة الشفاه في اللغة العربية

المصادر

اترك تعليقاً إلغاء الرد

تحليلات المنشور

734

237

3

22

3

616

7 د

نشرة فِهم البريدية

لتبقى على اطلاع دائم على كل ما هو جديد مما تقدمه منصة فهم، انضم لنشرتنا البريدية

سلسلة الذكاء الاصطناعي والاستشعار عن بعد – الجزء الثاني

سلسلة الذكاء الاصطناعي والاستشعار عن بعد – الجزء الأول

ماذا يمكن للذكاء الاصطناعي أن يقدّم للرعاية الصحية في المستقبل؟

توليد المعلومات المدعوم بالاسترجاع (RAG) باستخدام Gemma لشرح مفاهيم علم البيانات الأساسية

ما هي الفرص العملية للذكاء الاصطناعي في التجارب السريرية؟

كيف يتم الاستفادة من قدرات الذكاء الاصطناعي في القطاع العسكري؟

محمد معاذ

عبدالله حمدي

محمد عثمان

صلاح الكفراوي

مروج المهاجري

رقيا بن صافي