تحليل البيانات الاستكشافية

menu icon

تحليل البيانات الاستكشافية

تعرف على كل ما تحتاج لمعرفته حول تحليل البيانات الاستكشافية، وهي طريقة يتم استخدامها لتحليل وتلخيص مجموعات البيانات.

ما هو تحليل البيانات الاستكشافية؟

يستخدم علماء البيانات تحليل البيانات الاستكشافية (EDA) لتحليل مجموعات البيانات والتحقيق فيها وتلخيص خصائصها الرئيسية، وكثيرا ما يستخدمون طرق تصور البيانات. وهو يساعد في تحديد أفضل طريقة للتعامل مع مصادر البيانات للحصول على الإجابات التي تحتاجها، مما يسهل على علماء البيانات اكتشاف الأنماط أو تحديد الانحرافات أو اختبار الفرضيات أو التحقق من الافتراضات.

يتم استخدام تحليل EDA بشكل أساسي لمعرفة ما يمكن أن تكشف عنه البيانات خارج مهمة تكوين النماذج الرسمية أو اختبار الفرضيات وتوفر فهما أفضل لمتغيرات مجموعة البيانات والعلاقات بينها. ويمكن أن يساعد أيضا في تحديد ما إذا كانت التقنيات الإحصائية التي تفكر فيها لتحليل البيانات مناسبة. تم تطوير تقنيات EDA في الأصل من قبل عالم الرياضيات الأمريكي جون توكي في سبعينيات القرن الماضي، ولا تزال طريقة مستخدمة على نطاق واسع في عملية اكتشاف البيانات اليوم.

لماذا تحليل البيانات الاستكشافية مهم في علم البيانات؟

الغرض الرئيسي من تحليل EDA هو المساعدة في البحث في البيانات قبل وضع أي افتراضات. ويمكن أن يساعد في تحديد الأخطاء الواضحة، فضلا عن تحسين فهم الأنماط داخل البيانات، واكتشاف القيم المتطرفة أو الأحداث الشاذة، وإيجاد علاقات مثيرة للاهتمام بين المتغيرات.

يمكن لعلماء البيانات استخدام التحليل الاستكشافي للتأكد من أن النتائج التي يحققونها صحيحة وقابلة للتطبيق على أي نتائج أعمال وأهداف مرغوبة. كما يساعد تحليل EDA أصحاب المصلحة من خلال تأكيد أنهم يطرحون الأسئلة الصحيحة. حيث يمكن أن يساعد EDA في الإجابة عن الأسئلة حول الانحرافات المعيارية والمتغيرات المصنفة والفترات الزمنية للثقة. وبمجرد اكتمال تحليل EDA واستخلاص الرؤى، يمكن بعد ذلك استخدام خصائصه لتحليل البيانات أو تكوين النماذج الأكثر تطورا، بما في ذلك التعلم الآلي.

أدوات تحليل البيانات الاستكشافية

تشمل الوظائف والتقنيات الإحصائية المحددة التي يمكنك إجراؤها باستخدام أدوات EDA ما يلي:

  • تقنيات التجميع وتقليل الأبعاد، والتي تساعد في تكوين عروض رسومية للبيانات عالية الأبعاد تحتوي على العديد من المتغيرات.
  • تصور أحادي المتغير لكل مجال في مجموعة البيانات الأولية، مع إحصائيات موجزة.
  • تصورات ثنائية المتغير وإحصاءات موجزة تسمح لك بتقييم العلاقة بين كل متغير في مجموعة البيانات والمتغير المستهدف الذي تبحث عنه.
  • تصورات متعددة المتغيرات، لمناظرة وفهم التفاعلات بين المجالات المختلفة في البيانات.
  • الخوارزمية التصنيفية K-means Clustering هي طريقة التجميع في التعلم غير الخاضع للإشراف حيث يتم تخصيص نقاط البيانات في مجموعات K، أي عدد أنظمة المجموعات، بناء على المسافة من مركز كل مجموعة. وسيتم تجميع نقاط البيانات الأقرب إلى نقطة مركزية معينة ضمن نفس الفئة. يتم استخدام الخوارزمية التصنيفية K-mean Clustering بشكل شائع في تجزئة السوق والتعرف على الأنماط وضغط الصور.
  • تستخدم النماذج التنبؤية، مثل الانحدار الخطي، الإحصائيات والبيانات للتنبؤ بالنتائج.

أنواع تحليل البيانات الاستكشافية

هناك أربعة أنواع أساسية من تحليل EDA:

  • غير رسومي أحادي المتغير. يعد هذا هو أبسط شكل من أشكال تحليل البيانات، حيث تتكون البيانات التي يتم تحليلها من متغير واحد فقط. نظرا لأنه متغير واحد، فإنه لا يتعامل مع الأسباب أو العلاقات. والغرض الرئيسي من التحليل أحادي المتغير هو وصف البيانات وايجاد الأنماط الموجودة داخلها.
  • رسومي أحادي المتغير. لا تقدم الطرق غير الرسومية صورة كاملة للبيانات. ولذلك فإن الطرق الرسومية تكون مطلوبة. تشمل الأنواع الشائعة للرسومات أحادية المتغير ما يلي:
    • مخططات الجذع والأوراق، والتي تظهر جميع قيم البيانات وشكل التوزيع.
    • المدرج التكراري، وهو مخطط شريطي يمثل فيه كل شريط معدل التكرار (العدد) أو النسبة (العدد/إجمالي العدد) للحالات لمجموعة من القيم.
    • المخططات الصندوقية، والتي تصور بشكل بياني ملخص مكون من خمسة أرقام للحد الأدنى والربع الأول والمتوسط والربع الثالث والحد الأقصى.
  • غير رسومي متعدد المتغيرات: تنشأ البيانات متعددة المتغيرات من أكثر من متغير واحد. تظهر تقنيات EDA غير الرسومية متعددة المتغيرات بشكل عام العلاقة بين اثنين أو أكثر من متغيرات البيانات من خلال الجداول المتقاطعة أو الإحصائيات.
  • رسومي متعدد المتغيرات: تستخدم البيانات متعددة المتغيرات الرسومات البيانية لعرض العلاقات بين اثنين أو أكثر من مجموعات البيانات. يعد الرسم البياني الأكثر استخداما هو المخطط الشريطي المجمع أو المخطط الشريطي حيث تمثل كل مجموعة مستوى واحدا من أحد المتغيرات ويمثل كل شريط داخل المجموعة مستويات المتغير الآخر.

تشمل الأنواع الشائعة الأخرى للرسومات البيانية متعددة المتغيرات ما يلي:

  • مخطط التبعثر، الذي يستخدم لرسم نقاط البيانات على محور أفقي وعمودي لإظهار مدى تأثر متغير واحد بآخر.
  • مخطط متعدد المتغيرات، وهو تمثيل بياني للعلاقات بين العوامل والاستجابة.
  • مخطط التشغيل، وهو رسم بياني خطي للبيانات التي تم رسمها بمرور الوقت.
  • المخطط الفقاعي، وهو تصور بيانات يعرض دوائر متعددة (فقاعات) في مخطط ثنائي الأبعاد.
  • خريطة التمثيل الحراري، وهي تمثيل بياني للبيانات حيث يتم تصوير القيم بالألوان.

أدوات تحليل البيانات الاستكشافية

تتضمن بعض أدوات علم البيانات الأكثر شيوعا المستخدمة لتكوين EDA ما يلي:

  • Python: لغة برمجة تم تفسيرها وموجهة بواسطة العناصر ذات دلالات ديناميكية. حيث تجعل هياكل البيانات المضمنة عالية المستوى، جنبا إلى جنب مع الكتابة الديناميكية والربط الديناميكي، منها لغة جذابة للغاية لتطوير التطبيقات السريع، بالإضافة لاستخدامها كلغة نصية أو لغة Glue لربط المكونات الموجودة معا. يمكن استخدام Python وEDA معا لتحديد القيم المفقودة في مجموعة بيانات، وهو أمر مهم حتى تتمكن من تحديد كيفية التعامل مع القيم المفقودة للتعلم الآلي.
  • R: لغة برمجة مفتوحة المصدر وبيئة برمجية مجانية للحوسبة والرسومات الإحصائية بدعم من R Foundation for Statistical Computing. تستخدم لغة R على نطاق واسع بين الإحصائيين في علم البيانات في تطوير الملاحظات الإحصائية وتحليل البيانات.

للتعمق بشكل أكثر في الاختلافات بين هذه الأساليب، ارجع إلى "Python مقابل R: ما هو الفرق؟"

IBM وتحليل البيانات الاستكشافية

يوفر الإجراء الاستكشافي الذي تتبعه شركة IBM مجموعة متنوعة من الملخصات المرئية والرقمية للبيانات، إما لجميع الحالات أو بشكل منفصل لمجموعات من الحالات. يجب أن يكون المتغير التابع متغير مقياس، بينما قد تكون متغيرات التجميع ترتيبية أو اسمية.

باستخدام الإجراء الاستكشافي الذي تتبعه شركة IBM، يمكنك:

  • مشاهدة البيانات
  • تحديد القيم المتطرفة
  • التحقق من الافتراضات
  • وصف الفروق بين مجموعات الحالات

يمكنك ايجاد المزيد حول الإجراء الاستكشافي الذي تتبعه شركة هنا. وللحصول على مزيد من المعلومات حول تحليل البيانات الاستكشافية، قم بالتسجيل للحصول على IBMid وقم بتكوين حساب IBM Cloud الخاص بك.