يوفر IBM® SPSS® Data Preparation تقنيات متقدمة لتبسيط مرحلة إعداد البيانات، مما يُسهم في تحقيق نتائج تحليل بيانات أسرع وأكثر دقة.
يتوفر هذا الموديل في إصدار SPSS Professional للأنظمة المحلية، وفي إصدار Base ضمن باقات الاشتراك.
يُستخدم مربع الحوار "التحقق من صحة البيانات" للتحقق من صحة بياناتك. تعرض علامة التبويب "المتغيرات" المتغيرات الموجودة في ملفك. ابدأ بتحديد المتغيرات المطلوبة ونقلها إلى قائمة "متغيرات التحليل".
يمكنك تحديد عمليات التحقق الأساسية لتطبيقها على المتغيرات والحالات في ملفك. على سبيل المثال، يمكنك الحصول على تقارير تحدد المتغيرات التي تحتوي على نسبة عالية من القيم المفقودة أو الحالات الفارغة.
طبّق القواعد على كل متغير على حدة لتحديد القيم غير الصالحة، أي القيم الواقعة خارج النطاق المسموح أو القيم المفقودة. يمكنك أيضًا إنشاء قواعدك الخاصة، أو استخدام قواعد عبر المتغيرات، أو تطبيق القواعد المعرفة مسبقًا.
يقدم الإعداد البيانات التلقائي توصيات ويتيح للمستخدمين التعمق في التوصيات وفحصها.
يُعد إعداد البيانات يدويًا عملية معقّدة وتستغرق وقتًا طويلًا. وعندما تكون بحاجة إلى نتائج سريعة، يساعدك إجراء ADP على اكتشاف أخطاء الجودة وتصحيحها، بالإضافة إلى إسناد القيم المفقودة، وذلك في خطوة واحدة فعالة. توفر ميزة ADP تقريرًا سهل الفهم يتضمن توصيات شاملة وتصورات بيانية تساعدك في تحديد البيانات الأنسب لاستخدامها في التحليل.
أجرِ فحوصات تلقائية للبيانات وساهم في تقليل الاعتماد على الفحوصات اليدوية الطويلة والمكرّرة باستخدام إجراء التحقق من صحة البيانات. يمكنك هذا الإجراء من تطبيق القواعد لإجراء عمليات التحقق من البيانات استنادًا إلى مستوى قياس كل متغير، سواء أكان فئويًا أم مستمرًا. بعد ذلك، يمكنك تحديد صلاحية البيانات، واتخاذ قرار بإزالة الحالات المشبوهة أو تصحيحها قبل البدء بالتحليل.
يتضمن نظام IBM SPSS Data Preparation مجموعة من الميزات تشمل التحقق من صحة البيانات، وإعداد البيانات تلقائيًا، والتقسيم الأمثل، واكتشاف الحالات غير النمطية.
وباستخدام إجراء التقسيم الأمثل، يمكنك استخدام الخوارزميات المصممة للخصائص الاسمية مثل Naive Bayes ونماذج logit بدقة أكبر. يتيح لك هذا الإجراء تقسيم المتغيرات المقاسة إلى فئات أو تحديد نقاط القطع الخاصة بها.
اختر أحد هذه الأنواع من التقسيم الأمثل للمعالجة المسبقة للبيانات قبل إنشاء النموذج:
1) في النهج غير الخاضع للإشراف: يتم إنشاء الفئات بحيث تحتوي كل فئة على عدد متساوٍ من القيم.
2) في النهج الخاضع للإشراف: يتم أخذ المتغير المستهدف في الاعتبار لتحديد نقاط القطع. تُعتبر الطريقة الخاضعة للإشراف أكثر دقة، ولكنها أيضًا أكثر استهلاكًا للموارد الحسابية.
3) النهج الهجين: الجمع بين النهج غير الخاضع للإشراف والنهج الخاضع للإشراف. هذه الطريقة مفيدة إذا كان لديك كمية كبيرة من القيم المميزة.