معالجة البيانات عملية تنظيف وإثراء وهيكلة البيانات غير المنسقة لاستخدامها في علم البيانات والتعلم الآلي (ML) والتطبيقات الأخرى القائمة على البيانات.
تُعرف أيضًا باسم تنظيف البيانات أو إعداد البيانات، وهي طريقة لمعالجة مشكلات جودة البيانات مثل القيم المفقودة والتكرارات والقيم المتطرفة وتناقضات التنسيق. الهدف من معالجة البيانات هو تحويل البيانات غير المنسقة أو غير المنظمة أو التي تسبب مشاكل إلى مجموعات بيانات نظيفة يمكن تحليلها بشكل فعال. تساعد معالجة البيانات علماء البيانات ومحللي البيانات ومستخدمي الأعمال على تطبيق البيانات بطرق تدعم اتخاذ القرارات المستنيرة.
اليوم، يمكن للمؤسسات الوصول إلى سيل من البيانات من مصادر مختلفة. ومع ذلك، يمكن أن تكون هذه البيانات غير المنسقة فوضوية أو غير متسقة أو غير مناسبة للاستخدام مع مختلف العمليات والأدوات التي تحولها إلى رؤى قيمة. بدون المعالجة الصحيحة للبيانات، يمكن أن تكون نتائج تحليل البيانات مضللة. يمكن أن تستخلص الشركات استنتاجات غير دقيقة وتتخذ قرارات تجارية خاطئة.
يُعدّ معالجة البيانات طريقة أساسية لدعم النتائج عالية الجودة. يقوم بتحويل البيانات وتعيينها من خلال سلسلة من الخطوات لتصبح نظيفة ومتسقة وموثوقة ومفيدة للتطبيق المقصود. وتُستخدم مجموعات البيانات الناتجة لأداء مهام، مثل بناء نماذج التعلم الآلي، وإجراء تحليلات البيانات، وإنشاء عروض مصورة للبيانات، وإنشاء تقارير ذكاء الأعمال، واتخاذ قرارات تنفيذية مستنيرة.
مع تطور التقنيات القائمة على البيانات، بما في ذلك الذكاء الاصطناعي، أصبح التعامل مع البيانات أكثر أهمية. تعتمد جودة الذكاء الاصطناعي على قدر جودة البيانات المستخدمة لتدريبه.
تساعد عملية معالجة البيانات على ضمان دقة المعلومات المستخدمة لتطوير النماذج وتعزيزها. إنها تحسّن قابلية التفسير، حيث أن البيانات النظيفة والمنظمة بشكل جيد يسهل على البشر والخوارزميات فهمها. كما أنها تساعد أيضًا في تكامل البيانات، مما يسهل دمج المعلومات من مصادر متباينة وترابطها.
عادةً ما تتضمن عملية معالجة البيانات هذه الخطوات:
ترتكز هذه المرحلة الأولية على تقييم جودة مجموعة البيانات الكاملة، بما في ذلك مصادر البيانات وتنسيقات البيانات. هل تأتي البيانات من قواعد البيانات أو واجهات برمجة التطبيقات (APIs) أو ملفات CSV أو جمع البيانات من الويب أو مصادر أخرى؟ كيف يتم تنظيمها؟ كيف سيتم استخدامها؟
تسلط عملية الاكتشاف الضوء على مشكلات الجودة وتعالجها، مثل البيانات المفقودة أو التناقضات في التنسيق أو الأخطاء أو التحيز أو القيم الخارجية التي قد تحرف التحليل. عادةً ما يتم توثيق النتائج في تقرير جودة البيانات أو في وثيقة أكثر تقنية تُعرف باسم تقرير توصيف البيانات، والذي يتضمن إحصاءات وتوزيعات ونتائج أخرى.
تركز خطوة هيكلة البيانات، والتي تسمى أحيانًا بتحويل البيانات، على تنظيم البيانات في تنسيق موحد بحيث تكون مناسبة للتحليل. تتضمن:
يتضمن تنظيف البيانات معالجة القيم المفقودة وإزالة التكرارات وتصحيح الأخطاء أو التناقضات. هذه العملية قد تتضمن أيضًا تنعيم البيانات "المشوشة"، أي تطبيق تقنيات تقلل من تأثير الاختلافات العشوائية أو المشاكل الأخرى في البيانات. عند التنظيف، من المهم تجنب فقدان البيانات غير الضروري أو الإفراط في التنظيف، مما قد يؤدي إلى إزالة المعلومات القيّمة أو تشويه البيانات.
يتضمن إثراء البيانات إضافة معلومات جديدة إلى مجموعات البيانات الحالية لتعزيز قيمتها. يطلق عليها أحيانا زيادة البيانات، ويتضمن تقييم المعلومات الإضافية الضرورية ومن أين قد تأتي. بعد ذلك، يجب دمج المعلومات الإضافية مع مجموعة البيانات الحالية وتنظيفها بنفس طرق البيانات الأصلية.
قد ينطوي إثراء البيانات على سحب البيانات الديموغرافية أو الجغرافية أو السلوكية أو البيئية ذات الصلة بحالة الاستخدام المقصودة. على سبيل المثال، إذا كان مشروع معالجة البيانات يتعلق بعمليات سلسلة التوريد، فقد يساعد إثراء بيانات الشحنة بمعلومات الطقس على التنبؤ بالتأخيرات.
تتضمن هذه الخطوة التحقق من دقة واتساق البيانات التي تم معالجتها. أولًا، يجب وضع قواعد التحقق بناء على منطق العمل وقيود البيانات وغيرها من المشكلات. بعد ذلك، يتم تطبيق تقنيات التحقق من الصحة، مثل:
بعد التحقق الشامل، قد تنشر الشركة البيانات المعالجة أو تجهزها للاستخدام في التطبيقات. قد تتضمن هذه العملية تحميل البيانات إلى مستودع البيانات، أو إنشاء عرض مصور للبيانات، أو تصدير البيانات بتنسيق محدد لاستخدامها مع خوارزميات التعلم الآلي.
يمكن أن تستغرق عملية معالجة البيانات وقتًا طويلًا، خاصة مع استمرار نمو حجم البيانات المعقدة. في الواقع، تشير الأبحاث إلى أن إعداد البيانات والعمل على تحويلها إلى أشكال قابلة للاستخدام يستغرق ما بين 45% و80% من وقت محلل البيانات. 1 2
يتطلب معالجة البيانات مستوى معينًا من الخبرة الفنية في لغات البرمجة وتقنيات معالجة البيانات والأدوات المتخصصة. ولكنه في النهاية يحسّن جودة البيانات ويدعم تحليل البيانات بشكل أكثر كفاءة وفعالية.
تستخدم المؤسسات أدوات وتقنيات مختلفة لجمع البيانات من مصادر مختلفة ودمجها في مسار البيانات الذي يدعم احتياجات العمل الشاملة. ويتضمن ذلك:
يتم استخدام Python و R على نطاق واسع في مهام معالجة البيانات، بما في ذلك استخراج البيانات والتحكم بها وتحليلها. تعد لغة الاستعلام المهيكلة (SQL) ضرورية للعمل مع قواعد البيانات العلائقية وإدارة البيانات.
يستخدم معالجو البيانات أدوات مثل Microsoft Excel و Google Sheets لتنظيف البيانات الأساسية ومعالجتها، خاصة لمجموعات البيانات الأصغر.
توفر أدوات معالجة البيانات واجهة مرئية لتنقية البيانات وتحويل البيانات، مما يساعد على تبسيط مهام سير العمل وأتمتة المهام. على سبيل المثال، يمكن لأداة تنقية البيانات المتوفرة في منصات IBM تحويل البيانات غير المنسقة بسرعة إلى نموذج قابل للاستخدام لتحليل البيانات وأغراض أخرى.
تساعد منصات البيانات الكبيرة في التعامل مع مجموعات البيانات المعقدة وكبيرة الحجم من خلال توفير الأدوات وإمكانيات التوسع اللازمة للتعامل مع حجم وتنوع البيانات الكبيرة. تُستخدم منصات مثل Apache Hadoop و Apache Spark لمعالجة مجموعات البيانات الكبيرة. وهي تستخدم تقنيات البيانات الكبيرة لتحويل المعلومات إلى نموذج قابل للاستخدام لتحليلات البيانات عالية الجودة واتخاذ القرارات.
يدعم الذكاء الاصطناعي معالجة البيانات من خلال الأتمتة والتحليل المتقدم. قد تساعد نماذج وخوارزميات التعلم الآلي في حل مشكلات مثل اكتشاف القيم المتطرفة وتوسيع نطاقها. يمكن لأدوات الذكاء الاصطناعي الأخرى معالجة مجموعات البيانات الكبيرة بسرعة، والتعامل مع التحول في الوقت الفعلي والتعرف على الأنماط لتوجيه جهود التنظيف. تتيح واجهات معالجة اللغة الطبيعية (NLP) للمستخدمين التفاعل مع البيانات بشكل حدسي، مما قد يقلل الحواجز التقنية.
تؤدي كل الروابط إلى صفحات خارج ibm.com
1 State of Data Science, Anaconda, July 2020.
2 Hellerstein et al. Principles of Data Wrangling. O’Reilly Media. July 2017.