مقدمة Introduction :
تتنوع مصادر و صيغ و أحجام البيانات التي يمكن إنتاجها واستخلاصها بواسطة المؤسسات والشركات التجارية من بيانات عملاء وموظفين أو معدات و أجهزة، كالصور، مقاطع الصوت والفيديو، رسائل البريد الالكتروني، المستندات وغيرها والذي يتطلب بدوره وجود آليات وتقنيات متقدمة لاستيعاب هذه البيانات وإداراتها بشكل صحيح لغرض الاستفادة منها كأصل يساهم في نمو المؤسسة، حيث تنطوي هذه الإجراءت التنظيمية تحت ما يسمى بمعمارية أو بُنية البيانات Data Architecture والتي تساعد على اكتساب فهم أفضل للبيانات. وتوفر إرشادات لإدارة البيانات بدءًا من الالتقاط الأولي من مصادر البيانات وانتهاءًا لاستهلاك المعلومات من قبل علماء البيانات ووحدات الأعمال التجارية كما أنها توفر هيكلًا يمكن على أساسه تطوير منهجيات حوكمة البيانات وتنفيذها.
بُنية البيانات | Data Architecture :
بُنية البيانات Data Architecture: هي مجموعة من القواعد ، السياسات، المعايير والنماذج التي تُحَكِّم وَتُعَرِّف نوع البيانات المجمّعة collected data type وكيفية استخدامها، تخزينها، إداراتها و دمجها ضمن مستودعات وقواعد بيانات المؤسسة والتي تُعد منهجية لصناعة، إدارة، ومعالجة تدفق البيانات لأنظمة تقنية المعلومات وتطبيقاتها في المؤسسة.
يوجد عدة طبقات مكونة لبُنية البيانات بالمؤسسة يمكن تقسيمها على النحو الآتي:
- طبقة مصادر البيانات Data Sources Layer: هذه الطبقة تشكل مصدر البيانات الأولي التي يتم انتاجها داخل المؤسسة أو خارجها إما عن طريق موظفيها عملائها أو الأجهزة المتصلة والمرتبطة بشؤون الأعمال التجارية للمؤسسة.
- طبقة البيانات التشغيلية Operational Data Layer: هي طبقة وسيطة بين مصادر البيانات الأولية والمستهلكين الذين يحتاجون إلى الوصول إلى تلك البيانات حيث يتم تشكيل نمط معماري يدمج وينظم بشكل مركزي بيانات المؤسسة القادمة من طبقة مصادر البيانات، مما يجعلها متاحة للتطبيقات التي تستخدم وتستوعب البيانات.
- طبقة استيعاب وترحيل البيانات Data Ingestion & Staging Layer: في هذه الطبقة يتم استيعاب البيانات بجمع البيانات وإدخالها في أنظمة معالجة البيانات. تقوم طبقة استيعاب البيانات بمعالجة البيانات الواردة ، وتحديد أولويات المصادر ، والتحقق من صحة البيانات ، وتوجيهها إلى أفضل مكان لتخزينها والاستعداد للوصول إليها على الفور. يمكن أن يحدث استخراج البيانات في دفعة واحدة كبيرة أو مقسمة إلى مجموعات أصغر متعددة. ستختار طبقة استيعاب البيانات الطريقة الأفضل للاستيعاب والترحيل بناءً على السيناريو ونوع البيانات.
- طبقة تحويل ودمج البيانات Data Integration &Transformation Layer: بعد أن يتم استيعاب البيانات بشكل صحيح يتم تطبيق عمليات مخصصة مثل استخراج تحويل وتحميل ETL Extract Transform Load أو عمليات تنظيمية متقدمة كتنظيم وتنسيق البيانات Data Curation من شأنها تحضير البيانات data preparation وتسميتها data annotation و تحويلها إلى صيغ صحيحة ودمجها إن تطلب الأمر وذلك لجعلها قابلة للتخزين بالصور الصحيحة في طبقة تخزين البيانات.
- طبقة تخزين البيانات Data Storage Layer: في هذه الطبقة يتم تخزين البيانات التي تم معالجتها وتحضيرها في الطبقة السابقة لتكون قابلة للاستخدام النهائي و الاستفادة منها في طبقة ذكاء الأعمال والتحليلات المتقدمة.
- طبقة ذكاء الأعمال والتحليلات Business Intelligence & Analytics Layer: في هذه الطبقة يتم استخراج البيانات مرة أخرى وتطوير حالات استخدام مخصصة Custom Use Cases من شأنها تحويل البيانات إلى معلومات قابلة للقراءة واستخلاص الرؤى Insights أو تطوير نماذج تعلم آلي وذكاء اصطناعي متقدمة من شأنها المساعدة في نمو المؤسسة وتسهيل إجراءتها.
في الصورة أدناه مثال مبسط يستعرض الأدوات والتطبيقات الشائعة المستخدمة في طبقات بنية البيانات من الأسفل (مصادر البيانات) وصولًا للطبقة العليا (ذكاء الأعمال والتحليلات)
مبادئ بٌنية البيانات | Data Architecture Principles :
1- البيانات أصل قابل للمشاركة shared asset: ويعني أن كل قسم في المؤسسة قادر على استخدام نفس البيانات ومن مصدرها الأساسي فمن خلال تطبيق مفاهيم بُنية البيانات يتم التخلص من مشكلة data silos والتي تعني أن كل قسم لديه بياناته الخاصة والذي قد ينشأ عنه إنتاج نفس النوع من البيانات مرتين وبنتائج مختلفة.
2- مستخدمو البيانات لديهم وصول كاف لها: أي أن جميع مستهلكي البيانات من مهندسين، محليلن أو علماء بيانات أو حتى من موظفي الوحدات الغير متعلقة بالبيانات يجب أن يكون لديهم وصول كاف للبيانات التي يحتاجونها لأداء مهامهم الوظيفية.
3- أمان البيانات يٌعد أمرًا أساسيًا: جميع بًنيات البيانات الحالية تتطلب في تصميمها اعتبار أمان البيانات أمرًا أساسيًا بحيث لا يصل إلى هذه البيانات إلا الأشخاص الذين تتطلب أدوارهم الوصول لها.
4- المصطلحات المتفق عليها Common Vocabularies تضمن فهمًا مشتركًا: يجب تكوين فهم مشترك في المؤسسة حول الأمور المتعلقة بمجموعات البيانات كتعريف المصطلحات و مؤشرات الأداء الأساسية KPIs وماذا تحتوي هذه البيانات
5- يجب أن تكون البيانات منظمة ومنسقة Curated: أي أن البيانات يجب أن تكون مجهزة منظفة ومٌعَدّة بطريقة تجعلها قابلة للاستفادة منها وحاضرة عند الضرورة.
6- يجب تحسين تدفقات البيانات من أجل رشاقة Agility العمليات المرتبطة: أي أن يتم تقليل الزمن المطلوب المرتبط بعمليات نقل واستيعاب البيانات من مصدر إلى آخر من خلال الأنظمة أو مستخدمي البيانات.
المكونات الرئيسة لبُنية البيانات Data Architecture Main Components:
1- أنابيب البيانات Data Pipelines: وهي عمليات يتم من خلالها جمع البيانات نقلها، تنقيحها وتخزينها والتي تم شرحها أعلاه في العمليات المضمنة داخل طبقات معمارية البيانات.
2- التخزين السحابي Cloud Storage: لا يتم استخدام التخزين السحابي كخدمات Google، Microsoft و Amazon السحابية في جميع بٌنيات البيانات بل المتقدم منها فقط والذي يقدم بدوره مرونة ورشاقة عالية في تخزين وتوصيل البيانات.
3-الحوسبة السحابية Cloud Computing: بالإضافة إلى استخدام التخزين السحابي يتم استخدام الحوسبة أو المعالجة السحابية والتي تمكن مستهلكي البيانات من استخدام خوادم ذات قدرات عالية لإدارة ومعالجة وتحليل البيانات.
4- نماذج التعلم الآلي والذكاء الاصطناعي AI\ML Models: وهي نماذج تستخدم لأتمتة عمليات جمع البيانات وتسميتها ومعالجتها والتي تُمكن بشكل متميز عن تنفيذ بُنية قوية.
5- تدفق البيانات Data Streaming: هو التدفق المستمر للبيانات التي تم إنشاؤه بواسطة مصادر مختلفة. باستخدام تقنيات معالجة التدفق ، يمكن معالجة تدفقات البيانات وتخزينها وتحليلها والتصرف بناءً عليها عند إنشائها في الوقت الفعلي Real time.
6- تنسيق الحاويات Containers Orchestration: وهي عمليات مسؤولة عن نشر وتكبير وإدارة النماذج والبرمجيات المتعلقة بالبيانات على سبيل المثال نظام كوبرنيتس Kubernetes
7. التحليل بالوقت الفعلي Real-time Analytics: ويعد منهجية مطلوبة في المؤسسات والهيئات المتقدمة لتقديم تحليلات في الوقت الحقيقي لبياناتها دون المرور بعمليات معقدة وطويلة تتطلب عدة ساعات لا ستخراج التقارير و مؤشرات الأداء.
أطر عمل بنية البيانات Data Architecture Frameworks:
يوجد عدة أطر لتنفيذ مشاريع بنية البيانات أشهرها:
- إطار عمل داما DAMA-DMBOK-2
- إطار زاكمان لبنية المؤسسات Zachman Framework for Enterprise Architecture
- إطار عمل بنية المجموعة المفتوحة The Open Group Architecture Framework (TOGAF)
أدوار في بنية البيانات Data Architecture Roles:
معماري بيانات Data Architect: مسؤول عن تحويل جميع متطلبات الأعمال التجارية Business Requirements المتعلقة بالبيانات في المؤسسة إلى حلول تقنية متقدمة من خلال تعريف معايير و مبادئ وأطر عمل مختلفة.
- ترجمة متطلبات الأعمال التجارية إلى مواصفات تقنية
- تعريف تدفقات البيانات ومن أي قسم يتم توليد البيانات.
- تعريف أطر العمل ، المبادئ والمعايير المتعلقة ببنية البيانات
- تعريف مرجعية بنية البيانات
- المساهمة والتنسيق مع الأقسام المختلفة في المؤسسة
منمذج بيانات Data Modeler: ومهمته بناء نماذج منطقية ومفاهيمية ومادية لمجموعات البيانات في المؤسسة كما أنه مسؤول عن الهندسة العكسية Reverse Engineering لقواعد البيانات المتواجدة في المؤسسة وذلك لغرض تحسينها أو ملائمتها مع إطار العمل والمبادئ والمعايير التي تم تعرفيها من قبل معماري البيانات.
مهندس بيانات Data Engineer: في كثير من المؤسسات يلعب مهندس البيانات دوراً في تطبيق الرؤى و الأفكار التي يطرحها كل من معماري ومنمذج البيانات، فالمعماري مسؤول عن تصميم الرؤية والتخطيط والمهندس مسؤول عن التنفيذ.
مطور دمج بيانات Data Integration Developer: مسؤول عن تصميم وتنفيذ عمليات دمج وتكامل البيانات مع المنصات البرمجية وواجهات المستخدم عن طريق دراسة مصادر البيانات ونماذج البيانات ، وتخطيط حلول البيانات.
جرى التنويه أن معماري البيانات يلعب الدور الرئيس في تنفيذ مشاريع بنية البيانات ويعتمد نجاح المشروع عليه بشكل كبير بينما يقوم كل من منمذج ومهندس ومطور دمج البيانات بتسهيل و المساعدة في إنجاح مشاريع بنية البيانات.