إصبع يشير إلى شاشة متحركة تحتوي على نص

تاريخ النشر: 19 يونيو 2024
المساهمون: مولي هايز، وأماندا داوني 

ما المقصود بتحويل البيانات؟

يعد تحويل البيانات جزءًا حساسًا من عملية تكامل البيانات حيث تحوَّل البيانات الخام إلى تنسيق أو بنية موحدة. يضمن تحويل البيانات التوافق مع الأنظمة الهدف ويعزز جودة البيانات وسهولة استخدامها. وإنه جانب أساسي من جوانب ممارسات إدارة البيانات بما في ذلك معالجة البيانات وتحليلها وتخزينها

بينما يستطيع المتخصصون تحويل البيانات يدويًا، تتطلب الكميات الكبيرة من البيانات المطلوبة لتشغيل التطبيقات المؤسسات الحديثة عادةً مستوى معينًا من الأتمتة. قد تكون الأدوات والتقنيات المستخدمة في عملية تحويل البيانات بسيطة أو معقدة.

على سبيل المثال، قد يكون تحويل البيانات بسيطًا مثل تحويل حقل تاريخ (على سبيل المثال: اليوم/الشهر/السنة) إلى حقل آخر، أو تقسيم عمود Excel واحد إلى عمودين. ولكن تحويلات البيانات المعقدة، التي تنظف البيانات وتوحدها من مصادر متعددة متباينة، وتتكون من مهام سير عمل متعددة، قد تتطلب مهارات متقدمة في علم البيانات .

وتتضمن وظائف هندسة البيانات المتقدمة هذه تطبيع البيانات الذي يحدد العلاقات بين نقاط البيانات؛ وإثراء البيانات الذي يكمل المعلومات الموجودة بمجموعات بيانات من جهات خارجية.

في ظل الاقتصاد العالمي الرقمي الأول اليوم، تساعد عمليات تحويل البيانات المنظمات على الاستفادة من كميات كبيرة من البيانات المأخوذة من مصادر مختلفة لتحسين الخدمة وتدريب نماذج التعلم الآلي ونشر تحليلات البيانات الكبيرة . 

حالات استخدام تحويل البيانات

من خلال توحيد مجموعات البيانات وإعدادها للمعالجة اللاحقة، يجعل تحويل البيانات العديد من الممارسات بالغة الأهمية لبيانات المؤسسة أمرًا ممكنًا. تشمل الأسباب الشائعة لتحويل البيانات في عالم الأعمال ما يلي:

ذكاء الأعمال

تحوّل المؤسسات البيانات لاستخدامها في تطبيقات ذكاء الأعمال مثل لوحات المعلومات في الوقت الفعلي وتقارير التنبؤات، ما يسمح باتخاذ قرارات قائمة على البيانات وتأخذ كميات هائلة من المعلومات في الحسبان. 

مستودع البيانات

تعمل عملية تحويل البيانات على إعداد البيانات للتخزين والإدارة في مستودع البيانات أو بحيرة البيانات، ما يسهل الاستعلام والتحليل الفعال. 

التعلم الآلي

تتطلب نماذج التعلم الآلي بيانات نظيفة ومنظمة. إن ضمان موثوقية البيانات وتقديمها بالتنسيق الصحيح يسمح للمؤسسات باستخدامها لتدريب وضبط أدوات الذكاء الاصطناعي .

تحليلات البيانات الكبيرة

قبل تحليل البيانات الكبيرة لأغراض ذكاء الأعمال أو أبحاث السوق أو غيرها من التطبيقات، يجب تجميعها وتنسيقها بشكل مناسب. 

ترحيل البيانات

تحتوي عملية نقل البيانات من أنظمة محلية قديمة إلى منصات حديثة مثل مستودع البيانات السحابية أو بحيرة البيانات غالبًا على عمليات تحويل معقدة للبيانات. 

عملية تحويل البيانات

تتبع عمليات تحويل البيانات عادة عملية منظمة لإنتاج بيانات قيمة قابلة للاستخدام من حالتها غير المنسقة. وتتضمن الخطوات الشائعة في عملية تحويل البيانات ما يلي:

1. اكتشاف البيانات

تُجمع بيانات المصدرفي أثناء عملية الاكتشاف. وقد تتضمن هذه العملية استخراج البيانات الخام من APIs أو قاعدة بيانات SQL أو ملفات داخلية بتنسيقات متباينة. عند تحديد هذه المعلومات واستخراجها، يتأكد متخصصو البيانات من أن المعلومات التي تُجمَّع شاملة وذات صلة بالتطبيق النهائي لها. وخلال عملية الاستكشاف، يبدأ المهندسون أيضًا بفهم خصائص البيانات وهيكلها في عملية تُعرف باسم اكتشاف أنماط البيانات.

2. تنظيف البيانات

يتطلب إعداد البيانات وتنظيفها تحديد الأخطاء والتناقضات وعدم الدقة في البيانات غير المنسقة وإصلاحهم. وتضمن هذه الخطوة جودة البيانات وموثوقيتها من خلال إزالة التكرارات والقيم الخارجية أو معالجة القيم المفقودة. 

3. تنظيم البيانات

يتضمن تنظيم البيانات إنشاء مخطط أو عملية توجيهية لتوجيه عملية التحويل. خلال هذه العملية، يحدد مهندسو البيانات مدى توافق عناصر النظام المصدر مع عناصر محددة في الصيغة الهدف. 

4. توليد التعليمات البرمجية

سواء باستخدام أداة خارجية أو عن طريق التوليد الداخلي للتعليمات البرمجية، تُنْشِئ المؤسسة خلال هذه الخطوة التعليمات البرمجية التي ستقوم بتحويل البيانات. 

5. تنفيذ التعليمات البرمجية والتحقق من صحتها

يحدث التحويل الفعلي خلال هذة المرحلة حيث تطَّبق التعليمات البرمجية على البيانات غير المنسقة. تحمَّل البيانات المحولة في نظامها الهدف لإجراء المزيد من التحليل أو المعالجة. ثم يتم التحقق من صحة البيانات المحوَّلة ونموذج البيانات لضمان الاتساق والصحة. 

6. المراجعة

أثناء عملية المراجعة، يراجع محللو البيانات أو المهندسون أو المستخدمون النهائيون بيانات الناتج، للتأكد من أنها تلبي المتطلبات. 

مقارنة تحويل بيانات ETL بتحويل بيانات ELT

عملية الاستخراج والتحويل والتحميل (ETL) وعملية الاستخراج والتحميل والتحويل (ELT) هما عمليتان لتحويل البيانات شائعتان تستخدمان تقنيات مختلفة قليلاً لمسارات البيانات. ولكل منهما مزايا وعيوب اعتمادًا على حجم عملية التحويل وتعقيدها. 

استخراج وتحويل وتحميل (ETL): تحويل البيانات في منطقة التخزين

في عملية الاستخراج والتحويل والتحميل، تُستخرج مجموعة فرعية محددة مسبقًا من البيانات المهيكلة من مصدرها، حيث تحوَّل في منطقة تخزين أو خادم معالجة ثانوي قبل تحميلها في النظام المستهدف. وتعد عملية الاستخراج والتحويل والتحميل أكثر ملاءمة للتخزين المحلي ومجموعات البيانات الأصغر حجمًا. ومع ذلك، فإن عملية الاستخراج والتحويل والتحميل مفضلة في سيناريوهات ذات احتياجات محددة لجودة البيانات واتساقها، حيث يمكن تقديم خطوات أكثر صرامة لتنظيف البيانات والتحقق من صحتها. وقد تكون عملية الاستخراج والتحويل والتحميل ضرورية أيضًا لحماية البيانات الحساسة، مثل المعلومات المحمية بموجب قانون إخضاع التأمين الصحي لقابلية النقل والمساءلة، في أثناء الترحيل. 

استخراج وتحميل وتحويل (ELT): تحويل البيانات في السحابة 

في عملية ELT، تُستَخرَج المعلومات من مصادر البيانات وتُحمَّل في النظام الهدف القائم على السحابة، حيث يتم تحويلها فيه. يسمح هذا النهج عادة، لأنه يستفيد من قوة الحوسبة السحابية، بمعالجة أسرع للبيانات وإدارتها بأسلوب أكثر ذكاءً. ويستخدم أيضًا هذا النهج مع البيانات غير المنظمة مثل الصور. تستفيد عملية ELT من زيادة قابلية التوسع بفضل الحوسبة القائمة على السحابة وقوة التخزين.

أنواع تحويل البيانات

يستخدم علماء البيانات ومهندسوها العديد من التقنيات المتميزة خلال عملية تحويل البيانات. تعتمد الأساليب المتَّبَعة بشكل كامل على المشروع والاستخدام المقصود للبيانات، على الرغم من إمكانية استخدام عدة طرق بشكل متزامن كجزء من عملية معقدة.

  • تنظيف البيانات: تعمل عملية تنظيف البيانات على تحسين جودة البيانات عن طريق تصحيح الأخطاء والتناقضات، مثل التخلص من السجلات المكررة.
  • تجميع البيانات: تعمل عملية تجميع البيانات على تلخيص البيانات من خلال دمج عدة سجلات في قيمة واحدة أو مجموعة بيانات واحدة.
  • تطبيع البيانات: تعمل عملية تطبيع البيانات على توحيد البيانات، ما يجعل جميع القيم في مقياس أو تنسيق مشترك، مثل القيم الرقمية من 1 إلى 10.
  • ترميز البيانات: تعمل عملية ترميز البيانات على تحويل البيانات الفئوية إلى صيغة رقمية، ما يسهل تحليلها. على سبيل المثال، يخصص ترميز البيانات رقمًا فريدًا لكل فئة من فئات البيانات.
  • إثراء البيانات: تعمل عملية إثراء البيانات على تحسين البيانات عن طريق إضافة معلومات ذات صلة من مصادر خارجية، مثل البيانات الديموغرافية للجهات الخارجية أو البيانات الوصفية ذات الصلة.
  • إسناد البيانات: تعمل عملية إسناد البيانات على استبدال قيم معقولة ببيانات مفقودة. على سبيل المثال، تستبدل القيمة الوسيطة أو المتوسطة بالقيم المفقودة.
  • تقسيم البيانات: تقوم هذة العملية بتقسيم البيانات إلى مجموعات فرعية لأغراض مختلفة. على سبيل المثال، يقسم المهندسون مجموعة بيانات لاستخدام إحداها للتدريب والأخرى للاختبار في التعلم الآلي.
  • تجزئة البيانات: في عملية تجزئة البيانات، تحوَّل البيانات إلى مجموعات أو فترات منفصلة في عملية تُعرف أحيانًا بـالتصنيف. على سبيل المثال، تستخدم التجزئة في مجال الرعاية الصحية لترجمة بيانات مثل عمر المريض إلى فئات مثل "رضيع" أو "بالغ".
  • تعميم البيانات: تعمل عملية تعميم البيانات على تجريد مجموعات البيانات الكبيرة إلى نموذج أعلى في المستوى أو أكثر تلخيصًا، ما يقلل من التفاصيل ويجعل فهم البيانات أسهل.
  • تصور البيانات: تساعد عملية تصور البيانات على تقديم البيانات في شكل بياني، كاشفةً عن أنماط أو رؤى قد لا تكون واضحة على الفور. 
أدوات تحويل البيانات

في حين أنه من الممكن إجراء تحويل البيانات بواسطة مهندسين داخليين فقط، إلا أن العديد من الخدمات الخارجية تساعد في تسهيل عملية التحويل والترحيل. ومن بين أكثر هذه الخدمات شيوعًا ما يلي:

  • أدوات ETL و ELT: تسهل أدوات مثل Apache NiFi وInformatica التوصيل و التشغيل في عملية ETL أو ELT.
  • منصات تكامل البيانات: تدعم مجموعة من الأدوات مثل IBM Cloud Pak® for Data تكامل البيانات ومعالجتها في الوقت الفعلي.
  • أدوات إعداد البيانات: صُمِمَت هذه الأدوات خصيصًا لتنظيف البيانات وتحويلها قبل تحويل البيانات أو ترحيلها.
  • لغات البرمجة: توفر لغات البرمجة مثل Python وR، المزوَّدة بمكتبات مثل مكتبة pandas مفتوحة المصدر، قدرات قوية لتحويل البيانات.
مزايا تحويل البيانات

يُعد تحويل البيانات خطوة حاسمة في معالجة البيانات. فهو يعمل على تحسين قدرة المؤسسة على التحليل وإعداد التقارير واتخاذ القرارات والتخزين. تشمل الميزات الرئيسية ما يلي:

تحسين جودة البيانات 

يتضمن تحويل البيانات عمليات مثل تنظيف البيانات، ما يحسن الجودة الإجمالية لمجموعة البيانات. من خلال تحسين البيانات وهياكل البيانات واضحة المعالم، تُحسِن المؤسسات الكفاءة التشغيلية في مجالات مثل إدارة المخزون ومعالجة الطلبات. تعمل البيانات الأفضل أيضًا على تحسين تجربة العملاء، ما يوفر رؤية شاملة للمستهلكين الحاليين والمحتملين. 

تحسين توافق البيانات وتكاملها

تعمل عملية تحويل البيانات على توحيد تنسيقات البيانات وهياكلها، مما يسهل دمج المعلومات في مجموعة بيانات متماسكة. من خلال كسر صوامع البيانات وتوحيد المعلومات من إدارات أو أنظمة المتباينة، تعالج المؤسسة التناقضات وتكتسب رؤية موحدة للأعمال.

تحسين تصور البيانات

عادةً ما تكون البيانات المحوَّلة أكثر تنظيمًا وهيكلةً، ما يسهل إنشاء تصورات ذات مغزى تُوصِل الرؤى بشكل فعّال. تساعد التصورات صانعي القرار على تحديد الاتجاهات أو الفرص، ويمكنها تقديم بيانات مهمة، مثل خطوط المبيعات أو الشراء، في الوقت الفعلي تقريبًا.

إمكانية وصول أفضل للبيانات

تعمل عملية تحويل البيانات على تحويل البيانات المعقَّدة أو غير المهيكلة إلى تنسيقات يسهل فهمها والوصول إليها وتحليلها. تستخدم المؤسسات هذه البيانات لإنشاء توقعات متقدمة للسوق أو تحديد مجالات التحسين. 

تعزيز حلول الأمان وإدارة الامتثال

يمكن أن يشمل تحويل البيانات إخفاء هوية البيانات وتشفيرها وحماية المعلومات الحساسة والامتثال للوائح الخصوصية. ويظل هذا الأمان أمرًا بالغ الأهمية للصناعات شديدة التنظيم، مثل الرعاية الصحية والتمويل، وكذلك للمؤسسات التي تعمل في مناطق جغرافية متعددة ذات قوانين خصوصية مختلفة.

قابلية توسع ومرونة أفضل 

عادةً ما تكون البيانات المحوَّلة أكثر مرونة وسهولة في التنظيم، ما يجعل من السهل التكيف مع حالات الاستخدام الجديدة، أو توسيع نطاق معالجة البيانات كلما زادت كمية البيانات. تضمن البيانات القابلة للتوسُّع نمو المؤسسة من دون الحاجة إلى إعادة تنظيم مكلفة أو تطبيقات متعددة لتكنولوجيا المعلومات. 

حلول ومنتجات ذات صلة
استشارات IBM في مجال البيانات والتحليلات

الكشف عن قيمة بيانات المؤسسة وإنشاء مؤسسة تعتمد على المعارف وتقدم ميزة للأعمال مع IBM Consulting.

استكشف الخدمات الاستشارية للبيانات والتحليلات من IBM
منصة عمليات البيانات من IBM 

بفضل منصة عمليات البيانات من IBM، تقضي المؤسسات على التمييز بين الفرق التي تركز على البيانات والفرق التي تركز على التطوير، ما يزيد من الكفاءة في كل شيء بدءًا من إصلاح الأخطاء وحتى تحديد الأهداف. 

استكشف منصة عمليات البيانات لدى IBM
إدارة البيانات من IBM

تُمكِّن حلول البيانات والذكاء الاصطناعي من IBM المؤسسات من استخدام بياناتها لتحسين المرونة والموثوقية والتكلفة من دون التضحية بأمان البيانات أو جودتها.

استكشف منتجات إدارة البيانات من IBM
IBM watsonx.data

تمكّن أداة watsonx.data من IBM المؤسسات من توسيع نطاق الذكاء الاصطناعي والتحليلات باستخدام البيانات لديها، بغض النظر عن موقعها. 

استكشف أداة watsonx.data من IBM
منتجات نسيج البيانات من IBM 

يمكن أن تساعد بنيات البيانات الحديثة—مثل نسيج البيانات—في تشكيل وتوحيد مؤسسة قائمة على البيانات، وتوجيه عملية صنع القرار وزيادة جودة إدارة البيانات وتكاملها.

استكشف منتجات نسيج البيانات من IBM
الموارد أكاديمية الذكاء الاصطناعي: إدارة البيانات
اكتشف لماذا تُعد البيانات عالية الجودة ضرورية للاستخدام الناجح للذكاء الاصطناعي التوليدي وتعلّم كيف يمكن لبيانات المؤسسة أن تحقق مكاسب في الإنتاجية.
IBM watsonx.data
استكشف تجربة watsonx.data التجريبية من خلال متابعة Amelia مهندسة البيانات أثناء اتصالها بمصادر البيانات الخارجية الخاصة بها، والوصول إلى البيانات والاستعلام عنها، وتفريغ البيانات من مستودع البيانات لديها لتحسين التكلفة.
مفاضلة البيانات
استكشف الموارد المتعلقة بقيادة البيانات من خلال هذا الدليل، والذي سيساعدك في تنفيذ الإستراتيجية والتقنيات والثقافة الأساسية لقيادة مؤسسة تعتمد على البيانات ومدعومة بالذكاء الاصطناعي.
تحسين رؤية سلسلة توريد الأدوية من أجل سلامة المرضى
استكشف كيف أنشأت شركة IBM والرابطة الوطنية لمجالس إدارات الصيدلة مركزًا رقميًا لزيادة الشفافية والحفاظ على سلامة سلسلة توريد الأدوية.
تعمل المحاكاة الافتراضية للبيانات على توحيد البيانات للوصول إلى ذكاء اصطناعي وتحليلات سلسة
استكشف كيف تعمل المحاكاة الافتراضية للبيانات على تبسيط دمج البيانات من مصادر متنوعة وتغذية التعلم الآلي من خلال تقسيم صوامع البيانات.
إحداث ثورة في مجال تحليل البيانات غير المنظمة والتحقيق لمكافحة الاحتيال والجريمة المنظمة
استكشف كيف قامت أداة watsonx.data من IBM وشركة Cogniware بتوحيد البيانات من مصادر متباينة لتصور الروابط وفحص أنشطة الأفراد قيد التحقيق.
اتخِذ الخطوة التالية

يمكنك تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئ الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي في وقت قصير وباستخدام جزء بسيط من البيانات.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا