يُستخدم تحليل البيانات الاستكشافية (EDA) من قِبل علماء البيانات لتحليل مجموعات البيانات والتحقيق فيها وتلخيص خصائصها الرئيسية، وغالبًا ما يستخدمون العرض المصور للبيانات.
يساعد تحليل البيانات الاستكشافية (EDA) في تحديد أفضل السبل للتعامل مع مصادر البيانات للحصول على الإجابات التي تحتاجها، مما يسّهل على عالم البيانات اكتشاف الأنماط أو اكتشاف حالات الخلل أو اختبار فرضية أو التحقق من الافتراضات.
يُستخدم تحليل البيانات الاستكشافية (EDA) في المقام الأول لمعرفة ما يمكن أن تكشفه البيانات خارج مهمة النمذجة الرسمية أو اختبار الفرضيات ويوفر فهمًا أفضل لمتغيرات مجموعة البيانات والعلاقات بينها. يمكن أن يساعد أيضًا في تحديد ما إذا كانت التقنيات الإحصائية التي تفكر في استخدامها لتحليل البيانات مناسبة. تم تطوير تقنيات تحليل البيانات الاستكشافية (EDA) في الأصل من قبل عالم الرياضيات الأمريكي John Tukey في سبعينيات القرن العشرين، ولا تزال طريقة مستخدمة على نطاق واسع في عملية اكتشاف البيانات اليوم.
الغرض الرئيسي من EDA هو المساعدة في النظر إلى البيانات قبل وضع أي افتراضات. يمكن أن يساعد في تحديد الأخطاء الواضحة، بالإضافة إلى فهم الأنماط داخل البيانات بشكل أفضل، ويكشف القيم الخارجية أو الأحداث غير الطبيعية، والعثور على علاقات مثيرة للاهتمام بين المتغيرات.
يمكن لعلماء البيانات استخدام التحليل الاستكشافي للتأكد من أن النتائج التي ينتجونها صحيحة وقابلة للتطبيق على أي نتائج وأهداف تجارية مرغوبة. يساعد تحليل البيانات الاستكشافية أيضًا الأطراف المعنية من خلال التأكيد على أنهم يطرحون الأسئلة الصحيحة. يمكن لتحليل البيانات الاستكشافية المساعدة في الإجابة عن الأسئلة المتعلقة بالانحرافات المعيارية والمتغيرات الفئوية وفترات الثقة. بمجرد اكتمال تحليل البيانات الاستكشافية ورسم الرؤى، يمكن بعد ذلك استخدام ميزاته لتحليل البيانات أو النمذجة الأكثر تعقيدًا، بما في ذلك التعلم الآلي.
المهام والتقنيات الإحصائية المحددة التي يمكنك تنفيذها باستخدام أدوات تحليل البيانات الاستكشافية تشمل:
هناك أربعة أنواع أساسية من تحليل البيانات الاستكشافية:
هذا هو أبسط شكل من أشكال تحليل البيانات حيث تتكون البيانات التي يتم تحليلها من متغير واحد فقط. نظرًا لأنه متغير واحد فإنه لا يتعامل مع الأسباب أو العلاقات. الغرض الرئيسي من التحليل أحادي المتغير هو وصف البيانات والعثور على الأنماط الموجودة داخلها.
لا توفر الأساليب غير الرسومية صورة كاملة للبيانات. لذلك فإن الأساليب الرسومية مطلوبة. تتضمن الأنواع الشائعة للرسومات أحادية المتغير ما يلي:
تنشأ البيانات متعددة المتغيرات من أكثر من متغير واحد. تُظهر تقنيات EDA متعددة المتغيرات غير الرسومية بشكل عام العلاقة بين متغيرين أو أكثر من البيانات من خلال الجدولة المتقاطعة أو الإحصائيات.
البيانات المتعددة المتغيرات تستخدم رسومات بيانية لعرض العلاقات بين مجموعتين أو أكثر من البيانات. أكثرُ الرسوم البيانية استخدامًا هو مخطط الأعمدة المُجمَّعة أو الرسم البياني الشريطي حيث تُمثِّل كل مجموعة مستوى واحدًا من أحد المتغيرات، بينما يُمثِّل كل شريط داخل المجموعة مستويات المتغير الآخر.
تشمل الأنواع الشائعة الأخرى من الرسومات متعددة المتغيرات ما يلي:
تتضمن بعض لغات برمجة علم البيانات الأكثر شيوعًا والمستخدمة لإنشاء تحليل البيانات الاستكشافية ما يلي:
للتعرف بشكل أعمق على الاختلافات بين هذه الأساليب، راجع "Python مقابل R: ما هو الفرق؟"
فهم الوقائع وأسباب حدوثها وما يمكن أن يحدث نتيجة لها وما يمكن فعله بشأن ذلك. يمكّن Project Ripasso كل مستخدم من مستخدمي الأعمال من الحصول على معارف لاتخاذ قرارات بثقة وبسرعة التفكير بفضل التفسيرات الواضحة والمفصّلة لاستنتاجاته.
لكي تزدهر الشركات، يجب عليها استخدام البيانات لتعزيز ولاء العملاء وأتمتة عمليات الأعمال والابتكار باستخدام الحلول المستندة إلى الذكاء الاصطناعي.
استفِد من قيمة بيانات المؤسسة مع IBM Consulting لبناء مؤسسة تعتمد على الرؤى لتحقيق ميزة تنافسية في الأعمال.