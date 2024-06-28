تتضمن عملية استخراج البيانات عدة خطوات بدءًا من جمع البيانات إلى العرض المصوّر لها لاستخراج معلومات قيمة من مجموعات البيانات الكبيرة. يمكن استخدام تقنيات استخراج البيانات لتوليد أوصاف وتوقعات حول مجموعة البيانات المستهدفة.

يقوم علماء البيانات أو أخصائيو ذكاء الأعمال بوصف البيانات من خلال ملاحظاتهم للأنماط والارتباطات والعلاقات. كما يقومون بتصنيف البيانات وتجميعها من خلال أساليب التصنيف والانحدار، وتحديد القيم المتطرفة لحالات الاستخدام، مثل اكتشاف الرسائل غير المرغوب فيها.

عادة ما يتضمن استخراج البيانات خمس خطوات رئيسية: تحديد الأهداف، اختيار البيانات، إعداد البيانات، بناء نماذج البيانات، واستخراج الأنماط وتقييم النتائج.

1. تحديد أهداف العمل: قد يكون هذا هو الجزء الأصعب في عملية استخراج البيانات، وتقضي العديد من المؤسسات وقتًا قليلًا جدًا في هذه الخطوة المهمة. حتى قبل تحديد البيانات أو استخراجها أو تنظيفها، يمكن لعلماء البيانات والأطراف المعنية العمل معاً لتحديد المشكلة التجارية الدقيقة، مما يساعد في توجيه أسئلة البيانات والمعايير للمشروع. قد يحتاج المحللون أيضًا إلى إجراء المزيد من البحث لفهم سياق الأعمال بشكل كامل.

2. اختيار البيانات: عندما يتم تحديد نطاق المشكلة، يصبح من الأسهل على علماء البيانات تحديد مجموعة البيانات التي ستساعد في الإجابة عن الأسئلة ذات الصلة بالشركة. يمكنهم وفريق تكنولوجيا المعلومات أيضا تحديد مكان تخزين البيانات وتأمينها.



3. إعداد البيانات: يتم جمع البيانات ذات الصلة وتُنقّى لإزالة أي ضوضاء، مثل التكرار، القيم المفقودة، والقيم الخارجية. اعتمادًا على مجموعة البيانات، قد يتم اتخاذ خطوة إضافية لإدارة البيانات لتقليل عدد الأبعاد، حيث يمكن أن يؤدي كثرة الميزات إلى إبطاء أي عملية حسابية لاحقة.

يتطلع علماء البيانات إلى الاحتفاظ بأهم المتنبئات للمساعدة في ضمان الدقة المثلى في أي نموذج. علم البيانات المسؤول يعني التفكير في النموذج خارج نطاق الرمز البرمجي والأداء، وهو يتأثر بشكل كبير بالبيانات المستخدمة ومدى موثوقيتها.



4. بناء نماذج البيانات، واستخراج الأنماط: اعتمادًا على نوع التحليل، قد يبحث علماء البيانات في أي اتجاهات أو علاقات بيانات مثيرة للاهتمام، مثل الأنماط المتسلسلة أو قواعد الارتباط أو العلاقات. في حين أن الأنماط عالية التردد لها تطبيقات أوسع، إلا أن الانحرافات في البيانات قد تكون في بعض الأحيان أكثر إثارة للاهتمام، مما يسلط الضوء على مجالات الاحتيال المحتملة. يمكن أن تساعد النماذج التنبؤية في تقييم الاتجاهات أو النتائج المستقبلية. في أكثر الأنظمة تطورًا، يمكن للنماذج التنبؤية إجراء تنبؤات في الوقت الفعلي من أجا الاستجابة السريعة للأسواق المتغيرة.

قد تستخدم خوارزميات التعلم العميق أيضاً لتصنيف أو تجميع مجموعة بيانات حسب البيانات المتاحة. إذا تم تصنيف بيانات الإدخال (كما في التعلم الخاضع للإشراف)، فقد يستخدم نموذج تصنيف لتصنيف البيانات، أو بدلاً من ذلك، قد يطبق انحدار للتنبؤ باحتمالية تعيين معين. إذا لم تكن مجموعة البيانات مصنفة (أي أن التعلم غير خاضع للإشراف)، تتم مقارنة نقاط البيانات الفردية في مجموعة التدريب لاكتشاف أوجه التشابه الأساسية، وتجميعها بناء على تلك الخصائص.

5. تقييم النتائج وتنفيذ المعرفة: عند تجميع البيانات، يمكن إعدادها للعرض، غالباً باستخدام تقنيات العروض المصورة للبيانات، حتى يمكن تقييم النتائج وتفسيرها. من الناحية المثالية، تكون النتائج النهائية صالحة وجديدة ومفيدة ومفهومة. عندما يتم استيفاء هذه المعايير، يمكن لصناع القرار استخدام هذه المعرفة لتنفيذ الاستراتيجية الجديدة لتحقيق الأهداف المرجوة منها.