ما المقصود بهندسة البيانات؟

31 مايو 2024 

المؤلفين

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models

Gather

ما المقصود بهندسة البيانات؟

هندسة البيانات هي ممارسة تصميم وبناء أنظمة لتجميع البيانات وتخزينها وتحليلها على نطاق واسع. يعمل مهندسو البيانات على تمكين المؤسسات من الحصول على رؤى في الوقت الفعلي من مجموعات البيانات.

بدءًا من وسائل التواصل الاجتماعي ومقاييس التسويق وحتى إحصائيات أداء الموظفين وتوقعات التوجهات، تتوفر لدى المؤسسات جميع البيانات التي تحتاجها لتجميع رؤية شاملة لعملياتها. يحوِّل مهندسو البيانات كميات هائلة من البيانات إلى نتائج استراتيجية قيّمة.

من خلال هندسة البيانات المناسبة، يمكن للأطراف المعنية في المؤسسة -من التنفيذيين، والمطورين، وعلماء البيانات، ومحللي ذكاء الأعمال (BI)- الوصول إلى مجموعات البيانات التي يحتاجونها في أي وقت بطريقة موثوق بها ومريحة وآمنة.

تمتلك المؤسسات الآن إمكانية الوصول إلى المزيد من البيانات وأنواع البيانات أكثر من أي وقت مضى. يمكن لكل جزء من البيانات أن يوجِّه قرارًا تجاريًا مهمًا. يتولى مهندسو البيانات مسؤولية إدارة البيانات لاستخدامات لاحقة تشمل التحليل، والتنبؤ، أو التعلم الآلي.

بصفتهم علماء حاسوب متخصصين، يتفوق مهندسو البيانات في إنشاء وتوزيع الخوارزميات، ومسارات البيانات، وسير العمل التي تعمل على فرز البيانات غير المنسقة إلى مجموعات بيانات جاهزة للاستخدام. تُعَد هندسة البيانات جزءًا لا يتجزأ من منصة البيانات الحديثة وتجعل من الممكن للشركات تحليل البيانات التي تتلقاها وتطبيقها، بغض النظر عن مصدر البيانات أو تنسيقها.

حتى في إطار نظام إدارة شبكة البيانات اللامركزي، يظل الفريق الأساسي من مهندسي البيانات مسؤولًا عن صحة البنية التحتية بشكل عام.

حالات استخدام هندسة البيانات

يتحمل مهندسو البيانات مجموعة من المسؤوليات اليومية. فيما يلي العديد من حالات الاستخدام الرئيسية لهندسة البيانات:

جمع البيانات وتخزينها وإدارتها 

يعمل مهندسو البيانات على تبسيط عملية الحصول على البيانات وتخزينها عبر المؤسسة لتسهيل الوصول إليها وتحليلها. ويُسهم ذلك في تسهيل التوسع من خلال تخزين البيانات بكفاءة وإنشاء عمليات لإدارتها بطريقة يسهل صيانتها مع نمو الأعمال. يُتيح مجال DataOps أتمتة إدارة البيانات ويصبح ممكنًا بفضل عمل مهندسي البيانات.

تحليل البيانات في الوقت الفعلي 

من خلال وجود مسارات بيانات مناسبة، يمكن للأعمال أتمتة عمليات جمع البيانات وتنظيفها وتنسيقها لاستخدامها في تحليلات البيانات. عندما يمكن الوصول إلى كميات هائلة من البيانات القابلة للاستخدام من موقع واحد، يمكن لمحللي البيانات العثور بسهولة على المعلومات التي يحتاجونها لمساعدة قادة الأعمال على التعلم واتخاذ القرارات الاستراتيجية الرئيسية.

تُهيئ الحلول التي ينشئها مهندسو البيانات الساحة للتعلم في الوقت الفعلي مع تدفق البيانات إلى نماذج البيانات التي تعمل كتمثيلات حية لحالة المؤسسة في أي لحظة.

التعلم الآلي 

يستخدم التعلم الآلي (ML) كميات كبيرة من البيانات لتدريب نماذج الذكاء الاصطناعي (AI) وتحسين دقتها. يتم استخدام خوارزميات التعلم الآلي على نطاق واسع، بدءًا من خدمات التوصية بالمنتجات التي نراها في العديد من منصات التجارة الإلكترونية ووصولًا إلى مجال للذكاء الاصطناعي التوليدي سريع النمو. يعتمد مهندسو التعلم الآلي على مسارات البيانات لنقل البيانات من النقطة التي يتم جمعها فيها إلى النماذج التي تستهلكها للتدريب.

مهندسو البيانات ومجموعات البيانات الأساسية

يبني مهندسو البيانات أنظمة تعمل على تحويل كميات كبيرة من البيانات غير المنسقة إلى مجموعات بيانات أساسية قابلة للاستخدام تحتوي على البيانات الضرورية التي يحتاجها زملاؤهم. وإلا فسيكون من الصعب للغاية على المستخدمين النهائيين الوصول إلى البيانات الموزعة عبر أنظمة التشغيل في المؤسسة وتفسيرها.

تم تصميم مجموعات البيانات الأساسية لتلبية حالة استخدام محددة في المرحلة التالية، بحيث تحتوي على جميع البيانات المطلوبة بتنسيق قابل للاستخدام دون أي معلومات زائدة. والركائز الثلاث لمجموعة البيانات الأساسية القوية هي:

1. سهولة الاستخدام

تُركِّز طريقة البيانات كمنتج (DaaP) لإدارة البيانات على تقديم بيانات قابلة للوصول وموثوق بها للمستخدمين النهائيين. يجب أن يواجه المحللون والعلماء والمديرون وغيرهم من قادة الأعمال أقل عدد ممكن من العقبات عند الوصول إلى البيانات وتفسيرها.

2. الاستناد إلى السياق

البيانات الجيدة ليست مجرد لقطة من الحاضر، فهي توفِّر سياقًا من خلال نقل التغيير بمرور الوقت. ستعرض مجموعات البيانات الأساسية القوية التوجهات التاريخية وتعطي منظورًا لإثراء عملية صنع القرار الاستراتيجية.

3. الشمولية

يُعَد تكامل البيانات ممارسة تجميع البيانات من مختلَف أنحاء المؤسسة إلى مجموعة بيانات موحدة وهو من المسؤوليات الأساسية لدور مهندس البيانات. يُتيح مهندسو البيانات للمستخدمين النهائيين دمج البيانات من مصادر متباينة كما هو مطلوب في عملهم.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

ما آلية عمل هندسة البيانات؟

تهتم هندسة البيانات بتصميم وإنشاء مسارات البيانات التي تحوِّل البيانات غير المنسقة وغير المنظمة إلى مجموعات بيانات موحدة تحافظ على جودة وموثوقية البيانات.

تشكِّل مسارات البيانات العمود الفقري للبنية التحتية للبيانات التي تعمل بشكل جيد، وهي تسترشد بمتطلبات بنية البيانات للأعمال التي تخدمها. وتُعَد قابلية ملاحظة البيانات الممارسة التي يراقب من خلالها مهندسو البيانات مساراتهم لضمان حصول المستخدمين النهائيين على بيانات موثوق بها.

يتضمن مسار تكامل البيانات ثلاث مراحل رئيسية:

1. استيعاب البيانات

تُعَد استيعاب البيانات عملية نقل البيانات من مصادر متنوعة إلى منظومة واحدة. يمكن أن تشمل هذه المصادر قواعد البيانات ومنصات الحوسبة السحابية مثل Amazon Web Services (اختصارًا AWS) وأجهزة إنترنت الأشياء (IOT) وبحيرة البيانات والمستودعات ومواقع الويب ونقاط اتصال العملاء الأخرى. يستخدِم مهندسو البيانات واجهات برمجة التطبيقات لربط العديد من نقاط البيانات هذه بالمسارات الخاصة بهم.

يعمل كل مصدر بيانات على تخزين البيانات وتنسيقها بطريقة محددة، والتي قد تكون منظمة أو غير منظمة. على الرغم من أن البيانات المنظمة منسقة بالفعل للوصول الفعَّال، إلا أن البيانات غير المنظمة ليست كذلك. ومن خلال استيعاب البيانات، يتم توحيد البيانات في نظام بيانات منظم جاهز لمزيد من التحسين.

2. تحويل البيانات

تعمل عملية تحويل البيانات على إعداد البيانات التي تم استيعابها للمستخدمين النهائيين مثل المديرين التنفيذيين أو مهندسي التعلم الآلي. وهي ممارسة تهدف إلى تحسين البيانات من خلال اكتشاف الأخطاء وتصحيحها، وإزالة الإدخالات المكررة، وتوحيد البيانات لضمان موثوقية البيانات بشكل أكبر. وبعد ذلك، يتم تحويل البيانات إلى التنسيق الذي يطلبه المستخدم النهائي.

3. تقديم البيانات

بمجرد جمع البيانات ومعالجتها، يتم تسليمها إلى المستخدم النهائي. وتُعَد نمذجة البيانات وتصورها في الوقت الفعلي، ومجموعات بيانات التعلم الآلي، وأنظمة إعداد التقارير الآلية، كلها أمثلة على طرق تقديم البيانات الشائعة.

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

ما الفرق بين هندسة البيانات وتحليل البيانات وعلم البيانات؟

تُعَد هندسة البيانات وعلم البيانات وتحليلات البيانات مجالات وثيقة الصلة. ومع ذلك، كل منها هو تخصص محدد يؤدي دورًا فريدًا داخل المؤسسة الكبرى. تعمل هذه الأدوار الثلاثة معًا لضمان قدرة المؤسسات على تحقيق أقصى استفادة من بياناتها.

  • يستخدِم علماء البيانات التعلم الآلي والاستكشاف الأكاديمي والمجالات الأكاديمية الأخرى للتنبؤ بالنتائج المستقبلية. يُعَد علم البيانات مجالًا متعدد التخصصات يركِّز على تقديم تنبؤات دقيقة من خلال الخوارزميات والنماذج الإحصائية. وعلى غرار هندسة البيانات، فإن علم البيانات هو دور يعتمد على التعليمات البرمجية التي تتطلب خلفية برمجية واسعة النطاق.

  • يفحص محللو البيانات مجموعات البيانات الكبيرة لتحديد التوجهات واستخراج الرؤى لمساعدة المؤسسات على اتخاذ قرارات قائمة على البيانات في الوقت الحالي. وبينما يطبِّق علماء البيانات تقنيات حسابية متقدمة لمعالجة البيانات، يعمل محللو البيانات مع مجموعات بيانات محددة مسبقًا للكشف عن المعلومات المهمة واستخلاص استنتاجات ذات مغزى.

 

  • مهندسو البيانات هم مهندسو البرمجيات الذين يبنون البنية التحتية للبيانات في المؤسسة ويحافظون عليها - ما يؤدي إلى التكامل تلقائيًا، وإنشاء نماذج تخزين بيانات فعَّالة وتعزيز جودة البيانات من خلال قابلية الملاحظة. يعتمد علماء البيانات والباحثون على مهندسي البيانات لتزويدهم بالبيانات الموثوق بها وعالية الجودة التي يحتاجون إليها في عملهم.

ما أدوات البيانات التي يستخدمها مهندسو البيانات؟

يتم تعريف دور مهندس البيانات من خلال مجموعة المهارات المتخصصة التي يمتلكها. يجب أن يتقن مهندسو البيانات استخدام العديد من الأدوات والتقنيات لتحسين تدفق البيانات وتخزينها وإدارتها وجودتها عبر المؤسسة.

مسارات البيانات: الاستخراج والتحويل والتحميل (ETL) أو الاستخراج والتحميل والتحويل (ELT)

عند إنشاء مسار بيانات، يعمل مهندس البيانات على أتمتة عملية تكامل البيانات باستخدام البرامج النصية، وهي سطور من التعليمات البرمجية التي تؤدي المهام المتكررة. واعتمادًا على احتياجات المؤسسة، يُنشئ مهندسو البيانات المسارات بأحد التنسيقَيْن التاليين: ETL أو ELT.

مسار ETL: الاستخراج، والتحويل، والتحميل. تعمل مسارات ETL على أتمتة استرجاع البيانات وتخزينها في قاعدة بيانات. يتم استخراج البيانات غير المنسقة من المصدر، وتحويلها إلى تنسيق موحد بواسطة البرامج النصية ثم تحميلها إلى وجهة تخزين. يُعَد مسار ETL الطريقة الأكثر استخدامًا لتكامل البيانات، خاصةً عند دمج البيانات من مصادر متعددة في تنسيق موحد.

مسار ELT: الاستخراج، والتحميل، والتحويل. تعمل مسارات ELT على استخراج البيانات غير المنسقة واستيرادها إلى مستودع مركزي قبل توحيدها من خلال التحويل. يمكن تنسيق البيانات التي تم جمعها لاحقًا حسب الحاجة على أساس كل استخدام، ما يوفر درجة أعلى من المرونة مقارنةً بمسارات ELT.

حلول تخزين البيانات

غالبًا ما تبدأ وتنتهي الأنظمة التي ينشئها مهندسو البيانات بحلول تخزين البيانات: جمع البيانات من موقع واحد، ومعالجتها، ثم إيداعها في مكان آخر في نهاية المسار.

  • خدمات الحوسبة السحابية: يُعَد إتقان منصات الحوسبة السحابية أمرًا أساسيًا لنجاح المسيرة المهنية في هندسة البيانات. تُعَد Microsoft Azure Data Lake Storage، وAmazon S3 وحلول AWS الأخرى، وGoogle Cloud وIBM Cloud من المنصات الشائعة.

  • قواعد البيانات العلائقية: تنظِّم قاعدة البيانات العلائقية البيانات وفقًا لنظام من العلاقات المعرَّفة مسبقًا. يتم ترتيب البيانات في صفوف وأعمدة تشكِّل جدولًا ينقل العلاقات بين نقاط البيانات. تسمح هذه البنية بتنفيذ الاستعلامات المعقدة بكفاءة. يحتفظ المحللون والمهندسون بقواعد البيانات هذه باستخدام أنظمة إدارة قواعد البيانات العلائقية (RDBMS). تستخدِم معظم حلول أنظمة إدارة قواعد البيانات العلائقية (RDBMS) SQL لمعالجة الاستعلامات، حيث يُعَد MySQL و PostgreSQL من أبرز الخيارات مفتوحة المصدر لهذه الأنظمة.

  • قواعد البيانات NoSQL: لا تُعَد SQL الخيار الوحيد لإدارة قواعد البيانات. تُتيح قواعد البيانات NoSQL لمهندسي البيانات بناء حلول لتخزين البيانات دون الاعتماد على النماذج التقليدية. وبما أن قواعد البيانات NoSQL لا تخزِّن البيانات في جداول محددة مسبقًا، فإنها تُتيح للمستخدمين العمل بشكل أكثر بديهية دون الحاجة إلى الكثير من التخطيط المسبق. توفِّر NoSQL المزيد من المرونة إلى جانب قابلية التوسع الأفقي الأسهل عند مقارنتها بقواعد البيانات العلائقية القائمة على SQL.

  • مستودعات البيانات: تعمل مستودعات البيانات على جمع البيانات وتوحيدها من مختلَف أنحاء المؤسسة لإنشاء مصدر واحد للحقيقة. تتألف معظم مستودعات البيانات من هيكل ثلاثي المستويات: مستوى سفلي لتخزين البيانات، ومستوى وسطي يُتيح الاستعلامات السريعة، ومستوى علوي يواجه المستخدم. بينما تدعم نماذج تخزين البيانات التقليدية البيانات المنظمة فقط، يمكن للحلول الحديثة تخزين البيانات غير المنظمة. من خلال تجميع البيانات وتشغيل الاستعلامات السريعة في الوقت الفعلي، تعمل مستودعات البيانات على تحسين جودة البيانات، وتوفِّر رؤى أسرع للأعمال، وتُتيح اتخاذ قرارات استراتيجية وقائمة على البيانات. يمكن لمحللي البيانات الوصول إلى جميع البيانات التي يحتاجون إليها من واجهة واحدة والاستفادة من نمذجة البيانات وتصورها في الوقت الفعلي.

  • بحيرات البيانات: بينما يركِّز مستودع البيانات على البنية، فإن بحيرة البيانات هي حل لإدارة البيانات أكثر مرونة يخزِّن كميات كبيرة من البيانات المنظمة وغير المنظمة. تُعَد بحيرات البيانات أكثر مرونة في الاستخدام وأيسر تكلفة في الإنشاء من مستودعات البيانات؛ لأنها تفتقر إلى متطلبات المخطط المحدد مسبقًا. فهي تضم بيانات جديدة غير منسقة، وخاصةً البيانات الكبيرة غير المنظمة المثالية لتدريب أنظمة التعلم الآلي. ولكن دون إدارة كافية، يمكن أن تتحول بحيرات البيانات بسهولة إلى مستنقعات بيانات: أكوام فوضوية من البيانات يصعب التنقل فيها. تم بناء العديد من بحيرات البيانات على نظام منتجات Hadoop، بما في ذلك حلول معالجة البيانات في الوقت الفعلي مثل Apache Spark و Kafka.

  • مستودعات بحيرات البيانات: تُعَد مستودعات بحيرات البيانات المرحلة التالية في إدارة البيانات. فهي تخفِّف من نقاط الضعف في كل من نماذج المستودعات والبحيرات. تجمع مستودعات بحيرات البيانات بين تحسين التكلفة للبحيرات وبين الهيكل والإدارة المتفوقة للمستودعات لتلبية احتياجات التعلم الآلي وعلم البيانات وتطبيقات ذكاء الأعمال.

لغات البرمجة

باعتبارها تخصصًا في علوم الكمبيوتر، تتطلب هندسة البيانات معرفة متعمقة بعدد من لغات البرمجة المختلفة. إذ يستخدِم مهندسو البيانات لغات البرمجة لبناء مسارات البيانات الخاصة بهم.

  • تُعَد لغة الاستعلام الهيكلية (اختصارًا SQL) هي اللغة الرئيسية لإنشاء قواعد البيانات ومعالجتها. وتشكِّل SQL الأساس لجميع قواعد البيانات العلائقية، ويمكن استخدامها أيضًا في قواعد بيانات NoSQL.

  • توفِّر Python مجموعة واسعة من الوحدات المدمجة لتسريع العديد من جوانب عملية هندسة البيانات، بدءًا من بناء الأنابيب المعقدة باستخدام Luigi ووصولًا إلى إدارة سير العمل باستخدام Apache Airflow. يستخدِم العديد من تطبيقات البرمجيات التي يواجهها المستخدمون لغة Python كأساس لها.

  • تُعَد سكالا خيارًا جيدًا للاستخدام مع البيانات الكبيرة؛ لأنها تتناغم بشكل جيد مع Apache Spark. وعلى عكس Python، تُتيح Scala للمطورين برمجة العديد من العناصر الأولية المتزامنة وتنفيذ العديد من المهام في وقت واحد. وقدرة المعالجة المتوازية هذه تجعل Scala خيارًا شائعًا لبناء المسارات.

  • تُعَد Java خيارًا شائعًا للواجهة الخلفية للعديد من مسارات هندسة البيانات. عندما تختار المؤسسات بناء حلول معالجة البيانات الداخلية الخاصة بها، غالبًا ما تكون Java هي لغة البرمجة المفضلة. كما أنها تدعم Apache Hive، وهي أداة مستودع تركِّز على التحليلات.

حلول ذات صلة
أدوات التحليلات والحلول ذات الصلة بها

لكي تزدهر الشركات، يجب عليها استخدام البيانات لتعزيز ولاء العملاء، وأتمتة عمليات الأعمال، والابتكار باستخدام الحلول المستندة إلى الذكاء الاصطناعي.

استكشف حلول التحليلات
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة مع IBM Consulting لبناء مؤسسة تعتمد على الرؤى لتحقيق ميزة تنافسية في الأعمال.

اكتشف خدمات التحليلات
IBM Cognos Analytics

تعرَّف على Cognos Analytics 12.0، رؤى مدعومة بالذكاء الاصطناعي لتحسين عملية اتخاذ القرارات.

استكشف Cognos Analytics
اتخِذ الخطوة التالية

لكي تزدهر الشركات، يجب عليها استخدام البيانات لتعزيز ولاء العملاء، وأتمتة عمليات الأعمال، والابتكار باستخدام الحلول المستندة إلى الذكاء الاصطناعي.

استكشف حلول التحليلات اكتشف خدمات التحليلات