يُستخدم تحليل البيانات الاستكشافية (EDA) من قِبل علماء البيانات لتحليل مجموعات البيانات والتحقيق فيها وتلخيص خصائصها الرئيسية، وغالبًا ما يستخدمون العرض المصور للبيانات.
يساعد تحليل البيانات الاستكشافية (EDA) في تحديد أفضل السبل للتعامل مع مصادر البيانات للحصول على الإجابات التي تحتاجها، مما يسّهل على عالم البيانات اكتشاف الأنماط أو اكتشاف حالات الخلل أو اختبار فرضية أو التحقق من الافتراضات.
يُستخدم تحليل البيانات الاستكشافية (EDA) في المقام الأول لمعرفة ما يمكن أن تكشفه البيانات خارج مهمة النمذجة الرسمية أو اختبار الفرضيات ويوفر فهمًا أفضل لمتغيرات مجموعة البيانات والعلاقات بينها. يمكن أن يساعد أيضًا في تحديد ما إذا كانت التقنيات الإحصائية التي تفكر في استخدامها لتحليل البيانات مناسبة. تم تطوير تقنيات تحليل البيانات الاستكشافية (EDA) في الأصل من قبل عالم الرياضيات الأمريكي John Tukey في سبعينيات القرن العشرين، ولا تزال طريقة مستخدمة على نطاق واسع في عملية اكتشاف البيانات اليوم.
تعرَّف على كيفية الاستفادة من قواعد البيانات التي تعد الاختيار الصحيح للتطبيقات والتحليلات والذكاء الاصطناعي التوليدي.
الغرض الرئيسي من EDA هو المساعدة في النظر إلى البيانات قبل وضع أي افتراضات. يمكن أن يساعد في تحديد الأخطاء الواضحة، بالإضافة إلى فهم الأنماط داخل البيانات بشكل أفضل، ويكشف القيم الخارجية أو الأحداث غير الطبيعية، والعثور على علاقات مثيرة للاهتمام بين المتغيرات.
يمكن لعلماء البيانات استخدام التحليل الاستكشافي للتأكد من أن النتائج التي ينتجونها صحيحة وقابلة للتطبيق على أي نتائج وأهداف تجارية مرغوبة. يساعد تحليل البيانات الاستكشافية أيضًا الأطراف المعنية من خلال التأكيد على أنهم يطرحون الأسئلة الصحيحة. يمكن لتحليل البيانات الاستكشافية المساعدة في الإجابة عن الأسئلة المتعلقة بالانحرافات المعيارية والمتغيرات الفئوية وفترات الثقة. بمجرد اكتمال تحليل البيانات الاستكشافية ورسم الرؤى، يمكن بعد ذلك استخدام ميزاته لتحليل البيانات أو النمذجة الأكثر تعقيدًا، بما في ذلك التعلم الآلي.
المهام والتقنيات الإحصائية المحددة التي يمكنك تنفيذها باستخدام أدوات تحليل البيانات الاستكشافية تشمل:
هناك أربعة أنواع أساسية من تحليل البيانات الاستكشافية:
تشمل الأنواع الشائعة الأخرى من الرسومات متعددة المتغيرات ما يلي:
تتضمن بعض لغات برمجة علم البيانات الأكثر شيوعًا والمستخدمة لإنشاء تحليل البيانات الاستكشافية ما يلي:
للتعرف بشكل أعمق على الاختلافات بين هذه الأساليب، راجع "Python مقابل R: ما هو الفرق؟"
توفر IBM Cognos Analytics مجموعة من الميزات والأدوات لدعم تحليل البيانات الاستكشافية، مثل العرض المصور للبيانات واستكشافها والتحليل الإحصائي واستخراج البيانات.
استخدم IBM Watson Studio لتحديد ما إذا كانت التقنيات الإحصائية التي تفكر في استخدامها لتحليل البيانات مناسبة.
تعرّف على أهمية ودور تقنيات تحليل البيانات الاستكشافية وعرض مصور للبيانات للعثور على مشكلات جودة البيانات وإعداد البيانات ذات الصلة ببناء مسارات التعلم الآلي (ML).
تعرف على التقنيات الشائعة لاسترجاع بياناتك وتنظيفها وتطبيق هندسة الميزات وتجهيزها للتحليل الأولي واختبار الفرضيات.
تعرف على كيف يمكن أن تساعدك خصائص وأدوات تحليل البيانات الاستكشافية في IBM Cognos Analytics في اكتساب فهم أعمق لبياناتك وتحديد الأنماط والعلاقات واتخاذ قرارات عمل مستنيرة بشكل أسرع.