ما هو تحليل البيانات الاستكشافية (EDA)؟

رجل بالغ ينظر إلى جهاز لوحي رقمي يستعرضه أحد الزملاء في العمل

ما هو EDA؟

يُستخدم تحليل البيانات الاستكشافية (EDA) من قِبل علماء البيانات لتحليل مجموعات البيانات والتحقيق فيها وتلخيص خصائصها الرئيسية، وغالبًا ما يستخدمون العرض المصور للبيانات.

يساعد تحليل البيانات الاستكشافية (EDA) في تحديد أفضل السبل للتعامل مع مصادر البيانات للحصول على الإجابات التي تحتاجها، مما يسّهل على عالم البيانات اكتشاف الأنماط أو اكتشاف حالات الخلل أو اختبار فرضية أو التحقق من الافتراضات.

يُستخدم تحليل البيانات الاستكشافية (EDA) في المقام الأول لمعرفة ما يمكن أن تكشفه البيانات خارج مهمة النمذجة الرسمية أو اختبار الفرضيات ويوفر فهمًا أفضل لمتغيرات مجموعة البيانات والعلاقات بينها. يمكن أن يساعد أيضًا في تحديد ما إذا كانت التقنيات الإحصائية التي تفكر في استخدامها لتحليل البيانات مناسبة. تم تطوير تقنيات تحليل البيانات الاستكشافية (EDA) في الأصل من قبل عالم الرياضيات الأمريكي John Tukey في سبعينيات القرن العشرين، ولا تزال طريقة مستخدمة على نطاق واسع في عملية اكتشاف البيانات اليوم.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

لماذا يعد تحليل البيانات الاستكشافية (EDA) مهم في علم البيانات؟

الغرض الرئيسي من EDA هو المساعدة في النظر إلى البيانات قبل وضع أي افتراضات. يمكن أن يساعد في تحديد الأخطاء الواضحة، بالإضافة إلى فهم الأنماط داخل البيانات بشكل أفضل، ويكشف القيم الخارجية أو الأحداث غير الطبيعية، والعثور على علاقات مثيرة للاهتمام بين المتغيرات.

يمكن لعلماء البيانات استخدام التحليل الاستكشافي للتأكد من أن النتائج التي ينتجونها صحيحة وقابلة للتطبيق على أي نتائج وأهداف تجارية مرغوبة. يساعد تحليل البيانات الاستكشافية أيضًا الأطراف المعنية من خلال التأكيد على أنهم يطرحون الأسئلة الصحيحة. يمكن لتحليل البيانات الاستكشافية المساعدة في الإجابة عن الأسئلة المتعلقة بالانحرافات المعيارية والمتغيرات الفئوية وفترات الثقة. بمجرد اكتمال تحليل البيانات الاستكشافية ورسم الرؤى، يمكن بعد ذلك استخدام ميزاته لتحليل البيانات أو النمذجة الأكثر تعقيدًا، بما في ذلك التعلم الآلي.

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

أدوات تحليل البيانات الاستكشافية (EDA)

المهام والتقنيات الإحصائية المحددة التي يمكنك تنفيذها باستخدام أدوات تحليل البيانات الاستكشافية تشمل:

  • تقنيات التجميع وتقليل الأبعاد، والتي تساعد في إنشاء عروض بيانية لبيانات عالية الأبعاد تحتوي على العديد من المتغيرات.

  • تصور أحادي المتغير لكل حقل في مجموعة البيانات الأولية، مع إحصائيات موجزة.

  • تصورات ثنائية المتغير وإحصائيات موجزة تسمح لك بتقييم العلاقة بين كل متغير في مجموعة البيانات والمتغير المستهدف الذي تبحث عنه.

  • تصورات متعددة المتغيرات، لتعيين وفهم التفاعلات بين الحقول المختلفة في البيانات.

  • التجميع بالمتوسطات، وهي طريقة تجميع في التعلم غير الخاضع للإشراف حيث يتم تعيين نقاط البيانات في مجموعات K، أي عدد المجموعات، بناءً على المسافة من مركز كل مجموعة. سيتم تجميع نقاط البيانات الأقرب إلى نقطة مركزية معينة تحت نفس الفئة. يُستخدَم التجميع بالمتوسطات بشكل شائع في تجزئة السوق والتعرف على الأنماط وضغط الصور.

  • تستخدم النماذج التنبؤية، مثل الانحدار الخطي، والإحصائيات والبيانات للتنبؤ بالنتائج.

أنواع تحليل البيانات الاستكشافية (EDA)

هناك أربعة أنواع أساسية من تحليل البيانات الاستكشافية:

  • غير رسومية أحادية المتغير
  • رسومية أحادية المتغير
  • غير رسومية متعددة المتغيرات
  • رسومية متعددة المتغيرات

غير رسومية أحادية المتغير

هذا هو أبسط شكل من أشكال تحليل البيانات حيث تتكون البيانات التي يتم تحليلها من متغير واحد فقط. نظرًا لأنه متغير واحد فإنه لا يتعامل مع الأسباب أو العلاقات. الغرض الرئيسي من التحليل أحادي المتغير هو وصف البيانات والعثور على الأنماط الموجودة داخلها.

رسومية أحادية المتغير

لا توفر الأساليب غير الرسومية صورة كاملة للبيانات. لذلك فإن الأساليب الرسومية مطلوبة. تتضمن الأنواع الشائعة للرسومات أحادية المتغير ما يلي:

  • المخططات الجذعية والورقية (Stem-and-leaf) التي تُظهر جميع قيم البيانات وشكل التوزيع.

  • المدرج التكراري، وهو مخطط شريطي يمثل فيه كل شريط التكرار (العدد) أو النسبة (العدد/إجمالي العدد) للحالات لمجموعة من القيم.

  • المخططات الصندوقية تصور بيانيًا ملخصًا خماسي الأرقام للحد الأدنى والربع الأول والمتوسط والربع الثالث والحد الأقصى.

غير رسومية متعددة المتغيرات

تنشأ البيانات متعددة المتغيرات من أكثر من متغير واحد. تُظهر تقنيات EDA متعددة المتغيرات غير الرسومية بشكل عام العلاقة بين متغيرين أو أكثر من البيانات من خلال الجدولة المتقاطعة أو الإحصائيات.

رسومية متعددة المتغيرات

البيانات المتعددة المتغيرات تستخدم رسومات بيانية لعرض العلاقات بين مجموعتين أو أكثر من البيانات. أكثرُ الرسوم البيانية استخدامًا هو مخطط الأعمدة المُجمَّعة أو الرسم البياني الشريطي حيث تُمثِّل كل مجموعة مستوى واحدًا من أحد المتغيرات، بينما يُمثِّل كل شريط داخل المجموعة مستويات المتغير الآخر.

تشمل الأنواع الشائعة الأخرى من الرسومات متعددة المتغيرات ما يلي:

  • مخطط التشتت، الذي يُستخدم لتمثيل نقاط البيانات على محور أفقي ومحور رأسي لتوضيح مدى تأثر أحد المتغيرات بمتغير آخر.

  • مخطط متعدد المتغيرات، وهو تمثيل بياني للعلاقات بين العوامل والاستجابة.

  • مخطط تشغيل، وهو رسم بياني خطي للبيانات المرسومة بمرور الوقت.

  • المخطط الفقاعي، وهو عبارة عن عرض مصور للبيانات يعرض دوائر متعددة (فقاعات) في مخطط ثنائي الأبعاد.


  • خريطة الحرارية، وهي تمثيل رسومي للبيانات حيث يتم تصوير القيم حسب اللون.

لغات تحليل البيانات الاستكشافية

تتضمن بعض لغات برمجة علم البيانات الأكثر شيوعًا والمستخدمة لإنشاء تحليل البيانات الاستكشافية ما يلي:

  • Python: لغة برمجة مفسرة وموجهة نحو الكائنات ذات دلالات ديناميكية. تجعله هياكله البيانية المدمجة عالية المستوى، بالإضافة إلى الكتابة الديناميكية والربط الديناميكي، جذابًا للغاية للتطوير السريع للتطبيقات، فضلاً عن استخدامه كلغة برمجة نصية أو لغة ربط لربط المكونات الحالية معًا. يمكن استخدام Python و EDA معًا لتحديد القيم المفقودة في مجموعة البيانات، وهو أمر مهم حتى تتمكن من تحديد كيفية التعامل مع القيم المفقودة للتعلم الآلي.

  • R: لغة برمجة مصدر مفتوح وبيئة برمجية مجانية للحوسبة الإحصائية والرسومات مدعومة من قِبل مؤسسة R للحوسبة الإحصائية. تستخدم لغة R على نطاق واسع بين الإحصائيين في علم البيانات في تطوير الملاحظات الإحصائية وتحليل البيانات.

للتعرف بشكل أعمق على الاختلافات بين هذه الأساليب، راجع "Python مقابل R: ما هو الفرق؟"

حلول ذات صلة
IBM Project Ripasso

فهم الوقائع وأسباب حدوثها وما يمكن أن يحدث نتيجة لها وما يمكن فعله بشأن ذلك. يمكّن Project Ripasso كل مستخدم من مستخدمي الأعمال من الحصول على معارف لاتخاذ قرارات بثقة وبسرعة التفكير بفضل التفسيرات الواضحة والمفصّلة لاستنتاجاته.

اكتشف Project Ripasso
أدوات التحليلات والحلول ذات الصلة بها

لكي تزدهر الشركات، يجب عليها استخدام البيانات لتعزيز ولاء العملاء وأتمتة عمليات الأعمال والابتكار باستخدام الحلول المستندة إلى الذكاء الاصطناعي.

استكشف حلول التحليلات
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة مع IBM Consulting لبناء مؤسسة تعتمد على الرؤى لتحقيق ميزة تنافسية في الأعمال.

اكتشف خدمات التحليلات
اتخِذ الخطوة التالية

لكي تزدهر الشركات، يجب عليها استخدام البيانات لتعزيز ولاء العملاء وأتمتة عمليات الأعمال والابتكار باستخدام الحلول المستندة إلى الذكاء الاصطناعي.

استكشف حلول التحليلات اكتشف IBM Project Ripasso