ما هو تحليل البيانات الاستكشافية (EDA)؟
استكشف حل EDA من IBM سجل للتعرف على تحديثات الذكاء الاصطناعي
رسم توضيحي يحتوي على مجموعة من الرموز التوضيحية على شكل سُحُب، ومخطط دائري، ورسم بياني من الرموز التوضيحية على ما يلي
ما هو EDA؟

يُستخدم تحليل البيانات الاستكشافية (EDA) من قِبل علماء البيانات لتحليل مجموعات البيانات والتحقيق فيها وتلخيص خصائصها الرئيسية، وغالبًا ما يستخدمون العرض المصور للبيانات.

يساعد تحليل البيانات الاستكشافية (EDA) في تحديد أفضل السبل للتعامل مع مصادر البيانات للحصول على الإجابات التي تحتاجها، مما يسّهل على عالم البيانات اكتشاف الأنماط أو اكتشاف حالات الخلل أو اختبار فرضية أو التحقق من الافتراضات.

يُستخدم تحليل البيانات الاستكشافية (EDA) في المقام الأول لمعرفة ما يمكن أن تكشفه البيانات خارج مهمة النمذجة الرسمية أو اختبار الفرضيات ويوفر فهمًا أفضل لمتغيرات مجموعة البيانات والعلاقات بينها. يمكن أن يساعد أيضًا في تحديد ما إذا كانت التقنيات الإحصائية التي تفكر في استخدامها لتحليل البيانات مناسبة. تم تطوير تقنيات تحليل البيانات الاستكشافية (EDA) في الأصل من قبل عالم الرياضيات الأمريكي John Tukey في سبعينيات القرن العشرين، ولا تزال طريقة مستخدمة على نطاق واسع في عملية اكتشاف البيانات اليوم.

دليل قائد البيانات

تعرَّف على كيفية الاستفادة من قواعد البيانات التي تعد الاختيار الصحيح للتطبيقات والتحليلات والذكاء الاصطناعي التوليدي.

محتوى ذو صلة التسجيل للحصول على الكتاب الإلكتروني عن الذكاء الاصطناعي التوليدي
لماذا يعد تحليل البيانات الاستكشافية مهمًا في علم البيانات؟

الغرض الرئيسي من EDA هو المساعدة في النظر إلى البيانات قبل وضع أي افتراضات. يمكن أن يساعد في تحديد الأخطاء الواضحة، بالإضافة إلى فهم الأنماط داخل البيانات بشكل أفضل، ويكشف القيم الخارجية أو الأحداث غير الطبيعية، والعثور على علاقات مثيرة للاهتمام بين المتغيرات.

يمكن لعلماء البيانات استخدام التحليل الاستكشافي للتأكد من أن النتائج التي ينتجونها صحيحة وقابلة للتطبيق على أي نتائج وأهداف تجارية مرغوبة. يساعد تحليل البيانات الاستكشافية أيضًا الأطراف المعنية من خلال التأكيد على أنهم يطرحون الأسئلة الصحيحة. يمكن لتحليل البيانات الاستكشافية المساعدة في الإجابة عن الأسئلة المتعلقة بالانحرافات المعيارية والمتغيرات الفئوية وفترات الثقة. بمجرد اكتمال تحليل البيانات الاستكشافية ورسم الرؤى، يمكن بعد ذلك استخدام ميزاته لتحليل البيانات أو النمذجة الأكثر تعقيدًا، بما في ذلك التعلم الآلي.

أدوات تحليل البيانات الاستكشافية

المهام والتقنيات الإحصائية المحددة التي يمكنك تنفيذها باستخدام أدوات تحليل البيانات الاستكشافية تشمل:

  • تقنيات التجميع وتقليل الأبعاد، والتي تساعد في إنشاء عروض بيانية لبيانات عالية الأبعاد تحتوي على العديد من المتغيرات.

  • تصور أحادي المتغير لكل حقل في مجموعة البيانات الأولية، مع إحصائيات موجزة.

  • تصورات ثنائية المتغير وإحصائيات موجزة تسمح لك بتقييم العلاقة بين كل متغير في مجموعة البيانات والمتغير المستهدف الذي تبحث عنه.

  • تصورات متعددة المتغيرات، لتعيين وفهم التفاعلات بين الحقول المختلفة في البيانات.

  • التجميع بالمتوسطات، وهي طريقة تجميع في التعلم غير الخاضع للإشراف حيث يتم تعيين نقاط البيانات في مجموعات K، أي عدد المجموعات، بناءً على المسافة من مركز كل مجموعة. سيتم تجميع نقاط البيانات الأقرب إلى نقطة مركزية معينة تحت نفس الفئة. يُستخدَم التجميع بالمتوسطات بشكل شائع في تجزئة السوق والتعرف على الأنماط وضغط الصور.

  • تستخدم النماذج التنبؤية، مثل الانحدار الخطي، والإحصائيات والبيانات للتنبؤ بالنتائج.
أنواع تحليل البيانات الاستكشافية

هناك أربعة أنواع أساسية من تحليل البيانات الاستكشافية:

  • غير رسومية أحادية المتغير. هذا هو أبسط شكل من أشكال تحليل البيانات، حيث تتكون البيانات التي يتم تحليلها من متغير واحد فقط. نظرًا لأنه متغير واحد، فإنه لا يتعامل مع الأسباب أو العلاقات. الغرض الرئيسي من التحليل أحادي المتغير هو وصف البيانات والعثور على الأنماط الموجودة داخلها.

  • رسومية أحادية المتغير. لا توفر الأساليب غير الرسومية صورة كاملة للبيانات. لذلك فإن الأساليب الرسومية مطلوبة. تتضمن الأنواع الشائعة للرسومات أحادية المتغير ما يلي:

    • المخططات الجذعية والورقية (Stem-and-leaf) التي تُظهر جميع قيم البيانات وشكل التوزيع.

    • المدرج التكراري، وهو مخطط شريطي يمثل فيه كل شريط التكرار (العدد) أو النسبة (العدد/إجمالي العدد) للحالات لمجموعة من القيم.

    • المخططات الصندوقية، التي تصور بيانيًا ملخصًا خماسي الأرقام للحد الأدنى والربع الأول والمتوسط والربع الثالث والحد الأقصى.
       
  • متعددة المتغيرات غير الرسومية: تنشأ البيانات متعددة المتغيرات من أكثر من متغير واحد. تُظهر التقنيات متعددة المتغيرات غير الرسومية بشكل عام العلاقة بين متغيرين أو أكثر من البيانات من خلال الجدولة المتقاطعة أو الإحصائيات.

  • رسومية متعددة المتغيرات: تستخدم البيانات متعددة المتغيرات رسومات بيانية لعرض العلاقات بين مجموعتين أو أكثر من البيانات. أكثرُ الرسوم البيانية استخدامًا هو مخطط الأعمدة المُجمَّعة أو الرسم البياني الشريطي حيث تُمثِّل كل مجموعة مستوى واحدًا من أحد المتغيرات، بينما يُمثِّل كل شريط داخل المجموعة مستويات المتغير الآخر.

تشمل الأنواع الشائعة الأخرى من الرسومات متعددة المتغيرات ما يلي:

  • مخطط التشتت، الذي يُستخدم لتمثيل نقاط البيانات على محور أفقي ومحور رأسي لتوضيح مدى تأثر أحد المتغيرات بمتغير آخر.

  • مخطط متعدد المتغيرات، وهو تمثيل بياني للعلاقات بين العوامل والاستجابة.

  • مخطط تشغيل، وهو رسم بياني خطي للبيانات المرسومة بمرور الوقت.

  • المخطط الفقاعي، وهو عبارة عن عرض مصور للبيانات يعرض دوائر متعددة (فقاعات) في مخطط ثنائي الأبعاد.


  • خريطة الحرارية، وهي تمثيل رسومي للبيانات حيث يتم تصوير القيم حسب اللون.
لغات تحليل البيانات الاستكشافية

تتضمن بعض لغات برمجة علم البيانات الأكثر شيوعًا والمستخدمة لإنشاء تحليل البيانات الاستكشافية ما يلي:

  • Python: لغة برمجة مفسرة وموجهة نحو الكائنات ذات دلالات ديناميكية. تجعله هياكله البيانية المدمجة عالية المستوى، بالإضافة إلى الكتابة الديناميكية والربط الديناميكي، جذابًا للغاية للتطوير السريع للتطبيقات، فضلاً عن استخدامه كلغة برمجة نصية أو لغة ربط لربط المكونات الحالية معًا. يمكن استخدام Python و EDA معًا لتحديد القيم المفقودة في مجموعة البيانات، وهو أمر مهم حتى تتمكن من تحديد كيفية التعامل مع القيم المفقودة للتعلم الآلي.

  • R: لغة برمجة مصدر مفتوح وبيئة برمجية مجانية للحوسبة الإحصائية والرسومات مدعومة من قِبل مؤسسة R للحوسبة الإحصائية. تستخدم لغة R على نطاق واسع بين الإحصائيين في علم البيانات في تطوير الملاحظات الإحصائية وتحليل البيانات.

للتعرف بشكل أعمق على الاختلافات بين هذه الأساليب، راجع "Python مقابل R: ما هو الفرق؟"

حلول ذات صلة
IBM Cognos® Analytics

توفر IBM Cognos Analytics مجموعة من الميزات والأدوات لدعم تحليل البيانات الاستكشافية، مثل العرض المصور للبيانات واستكشافها والتحليل الإحصائي واستخراج البيانات.

استكشف Cognos Analytics
IBM Watson Studio

استخدم IBM Watson Studio لتحديد ما إذا كانت التقنيات الإحصائية التي تفكر في استخدامها لتحليل البيانات مناسبة.

استكشف IBM Watson Studio اليوم
الموارد التقدم في تحليل البيانات الاستكشافية وتصورها وجودتها لأنظمة الذكاء الاصطناعي التي تركز على البيانات

تعرّف على أهمية ودور تقنيات تحليل البيانات الاستكشافية وعرض مصور للبيانات للعثور على مشكلات جودة البيانات وإعداد البيانات ذات الصلة ببناء مسارات التعلم الآلي (ML).

تحليل البيانات الاستكشافية للتعلم الآلي

تعرف على التقنيات الشائعة لاسترجاع بياناتك وتنظيفها وتطبيق هندسة الميزات وتجهيزها للتحليل الأولي واختبار الفرضيات.

كيفية البدء في استخدام IBM Cognos Analytics

تعرف على كيف يمكن أن تساعدك خصائص وأدوات تحليل البيانات الاستكشافية في IBM Cognos Analytics في اكتساب فهم أعمق لبياناتك وتحديد الأنماط والعلاقات واتخاذ قرارات عمل مستنيرة بشكل أسرع.