ما هي أنواع الشروح التوضيحية للرؤية الحاسوبية؟

الأحد 12 جمادى الأولى 1442ھ الأحد 27 ديسمبر 2020م
فيسبوك
إكس
واتساب
تيليجرام
لينكدإن

709 كلمة

7 دقائق

المحتوى

خلف أنظمة الذكاء الاصطناعي التي تمنح “الرؤية” للآلات، نجد “الجندي المجهول” وهي الشروح التوضيحية التي تساعد في جعل الصور قابلة للقراءة للرؤية الحاسوبية (Computer Vision). ولا تقتصر الرؤية على استخدام كاميرا لتمكين الآلة من رؤية الأشياء، وإنما تتجاوزه لتشمل معالجة وتحليل المعلومات التي قد تتضمّنها صورة أشعة سينية مثلًا أو التعرّف على مستوى الزئبق في صورةٍ ما وغيرها. كلّ ذلك يتم من خلال الاستعانة بالشروح التوضيحية وهي المفتاح لأخذ بيانات الصورالخام وتحويلها لبيانات تدريب لنماذج التعلّم الآلي، وكذلك التعرّف على أنماط البيانات المشابِهة عند تقديمها مع بياناتٍ جديدة. ويتمّ استخدام هذه الشروح لمجموعةٍ متنوعة من التطبيقات المختلفة. وعلى الرغم من أنّ التعرّف على الوجه واكتشاف الأجسام، والتصوير الطبي يصبّ في خانة الرؤية الحاسوبية، إلاّ أنّ كلّا منها يتطلّب نوعًا مختلفًا من الشروح لتحقيق الأهداف المرجوّة. في هذه المقالة، سنلقي نظرةً على بعض الأنواع الشائعة لشروح الصورالخاصة بالرؤية الحاسوبية.

1- مربعات الإحاطة (Bounding Box Annotation)

مربعات إحاطة ثنائية الأبعاد لتعريف إحداثيات جسم

يتمّ رسم شكل مربعات إحاطة ثنائية الأبعاد على صورة أو نص لتعريف إحداثيات جسم “أ” و”ب”. ويشكّل هذا بداية تدريب الآلة للتعرّف على أنواع مختلفة من الأجسام. وعلى سبيل المثال، يمكن أن تساعد هذه المربعات السيارات ذاتية القيادة على التمييز بين المشاة والمركبات الأخرى. كما أنّها ضرورية أيضًا لمهام مثل تحديد الأجسام، واكتشاف حالات الاصطدام حال وقوعها. وينبغي أن تكون الشروح عالية الجودة، وسهلة الاستخدام، وعلى درجة عالية من المرونة. كما لا بدّ أن تشتمل على خصائص مثل التكبير في الصور، والخطوط المتقاطعة  لتحديد موضع المربع لا سيّما مع الأجسام المتحركة. وتسمح هذه التفاصيل بتحقيق مزيدٍ من السرعة والكفاءة  للشروحات التوضيحية مع مراعاة عامل الدقة. وتعدّ مربعات الإحاطة شائعة في المركبات المستقلة، كما أنّها تساعد الطائرات بدون طيار في تحديد المعالم للوصول إلى المكان المحدّد، وكذلك في تمييز روبوتات المستودعات لمجموعة متنوعة من الأجسام المختلفة.

2- الإحاطة ثلاثية الأبعاد (Cuboid Annotation)

البعد الإضافي العميق لمربعات الإحاطة

يضيف هذا النوع، والمعروف أيضًا باسم الأشكال المكعّبة، البعد الإضافي العميق لمربعات الإحاطة أعلاه. إنّ إنشاء تمثيل ثلاثي الأبعاد لجسمٍ ما للرؤية الحاسوبية يعني منح الأجهزة القدرة على تمييز موضع كائنٍ في مساحة ثلاثية الأبعاد، فضلًا عن حجمه. وتبدأ الإحاطة عادةً بنقاط  تثبيت، توضع عند حواف جسمٍ ما. ومن خلال ملء المسافة بخطوط بين نقاط التثبيت هذه، يمكن إنشاء شكل صندوق ثلاثي الأبعاد، أو شبيه المكعب، وفي هذه الحالة يظهر التمثيل ثلاثي الأبعاد. وهذا النوع يعدّ شائعًا في الروبوتات والمركبات المستقلّة، حيث لا يكفي فقط معرفة وجود كائنٍ ما. وعندما تحتاج الآلة إلى أن تكون قادرة على فهم موقع وحجم جسمٍ معيّن، توفر هذه الصناديق الثلاثية الأبعاد مستويات أعلى من الدقة بالمقارنة مع مربعات الإحاطة التقليدية.

3- نقاط الاستدلال (Key-point Annotation)

نقاط الرؤية الحاسوبية
المصدر: The Intercept

يجري استخدام هذه النقاط في الرؤية الحاسوبية، لجعل الوجه البشري قابلًا للتعرّف عليه من قِبل الآلات، وكذلك يتم الاستعانة بها في الخرائط وغيرها. أمّا عن طريقة العمل، فهي تتمّ من خلال وضع نقاطٍ على الصورة لتسمية الأجسام داخل تلك الصورة. ويمكن أنّ تكون هذه النقاط منفردة موضوعة على أجسامٍ صغيرة، أو نقاط متعدّدة لتوضيح تفاصيل معينة. وقد يجري استخدام هذا النوع لإلغاء قفل الهواتف المحمولة وتمييز الوجوه في منصات التواصل الاجتماعي وما إلى ذلك. كما يمكن أن تساعد نقاط الاستدلال أيضًا في تحليل الفيديو، وذلك من خلال تتبّع حركات أجزاء معينة من الجسم عبر إطارات فيديو متعددة (Frames).

4- المضلّعات (Polygons)

I Polygon 1

على الرغم من أنّ مربعات الإحاطة التي ذكرناها أعلاه تعدّ جيدة للعديد من مهام الذكاء الاصطناعي الخاصة بالرؤية الحاسوبية، إلا أنها قد تفتقر أحيانًا إلى الدقة اللازمة للأجسام ذات الأشكال غير المنتظمة، ونقصد بذلك على سبيل المثال أشكال المباني، أو لافتات الشوارع… وعلى عكس مربّعات الإحاطة، تسمح المضلّعات بظهور زوايا وخطوط متعددة. وهذا يعني أنه بدلاً من رسم مربع فوق أحد المباني، يمكن النقر فوق نقاطٍ معينة  وتغييرالاتجاه للالتزام بشكلٍ أفضل بهيكل جسمٍ معيّن. إنّ المضلّعات التوضيحية تعدّ مفيدة للتصوير الجوي، حيث يكون من المهمّ غالبًا أن تحدّد الطائرات بدون طيار أو الأقمار الصناعية أماكن أجسام معينة من الأعلى. وفيما يتعلّق بالمركبات المستقلّة، يكمن دور المضلّعات في المساعدة على تحصيل المزيد من التفاصيل، ونذكر هنا على سبيل المثال التمييز بين مجموعة متنوعة من الأشياء بين حركة المرور الكثيفة.

ونودّ التنويه إلى أنّ ما أوردناه هو بعض أنواع الشروح التوضيحية الشائعة للرؤية الحاسوبية، لكنها بالتأكيد ليست الوحيدة. وكل ما عليك به هو القيام بعمليات بحث لتجد المزيد! وما ينبغي الإشارة إليه هو أن دقّة الرؤية الحاسوبية يعود بالدرجة الأولى إلى دقّة مجموعات البيانات (Datasets). والإنترنت يحتوي على “ثروةٍ” من البيانات، تتمثّل في مستودعات مثل Kaggle و Google Dataset Search وما إلى ذلك وهي بمثابة نقطة انطلاقٍ فاعلة لمجموعات البيانات مفتوحة المصدر.

نشرة فهم البريدية
لتبقى على اطلاع دائم على كل ما هو جديد مما تقدمه منصة فهم، انضم لنشرتنا البريدية.
باحث في مجال الذكاء الاصطناعي. كاتب تقني. يرتكز عمله المهني على توفير المهارات الإستراتيجية لدعم وفهم تقنية الذكاء الاصطناعي في المنطقة العربية. أنجز العديد من الدراسات والمقالات العلمية في الذكاء الاصطناعي، وتركّز أبحاثه على التأثير الحقيقي لهذه التقنية في مختلف المجالات.
  1. ناظم أبو ناظر ناظم أبو ناظر

    ما شاء الله
    تقدم علمي متسارع.

  2. AbdulazizAlmar AbdulazizAlmar

    مجال معرفي مهم وشرح رائع ، وافر احترامي

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *