ما المقصود بالحصول على البيانات؟

نقاط وخطوط زرقاء مختلطة تتداخل إلى الجانب الأيمن

المؤلفون

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

ما المقصود بالحصول على البيانات؟

الحصول على البيانات هو عملية جمع البيانات من مصادر مختلفة باستخدام أساليب متنوعة. يمثِّل ذلك خطوة حاسمة في مسار استيعاب البيانات، تليها عملية التحقق من البيانات، والتحويل، والتحميل.
 

تعتمد أساسيات الأعمال الحديثة -مثل صناعة القرار القائمة على البيانات، وتحليل البيانات، والذكاء الاصطناعي- جميعها على توفُّر كميات كبيرة من البيانات عالية الجودة. في عملية الحصول على البيانات، يتم استرداد البيانات التي تجعل هذه القرارات المبنية على المعلومات وهذه التقنيات ممكنة. رغم أن المفهوم قد يبدو واضحًا، فإن الحصول على البيانات قد يكون معقدًا، خاصةً في عصر البيانات الكبيرة.

أصبحت مجموعات البيانات اليوم ضخمة ومعقدة. حيث يمكن أن تصل أحجامها إلى تيرابايت أو بيتابايت، وتأتي بصيغ منظمة أو غير منظمة، وتتوزع عبر مصادر متنوعة. تؤدي هذه التعقيدات إلى ظهور تحديات تتعلق بإدارة أحجام البيانات، والحوكمة، والأمن طوال عملية الحصول على البيانات.

ومع ذلك، عندما تتم بشكل فعَّال، يمكن أن تكون عملية الحصول على البيانات مسارًا يوفر وقودًا عالي الجودة للمبادرات الاستراتيجية. في الواقع، وجدت دراسة من Harvard Business Review أن المؤسسات التي تستخدم البيانات الكبيرة والذكاء الاصطناعي بنجاح تفوقت على نظيراتها في مقاييس الأعمال الرئيسية، بما في ذلك الكفاءة التشغيلية، ونمو الإيرادات، وتجربة العملاء.1

تعريف بديل للحصول على البيانات

يمكن أن يُشير مصطلح "الحصول على البيانات" أيضًا إلى جمع الإشارات الفيزيائية أو الكهربائية التي تقيس الظروف الواقعية - عادةً بيانات المستشعرات. وتشمل الأمثلة على ذلك قياسات درجة الحرارة والضغط والظواهر الفيزيائية الأخرى.

تتم معالجة هذه الإشارات وتحويلها إلى قيم رقمية قابلة للاستخدام باستخدام أجهزة الحصول على البيانات أو أجهزة DAQ. ويُعتبر هذا الاستخدام شائعًا في مجالات مثل مراقبة البيئة والأتمتة الصناعية والبحث العلمي.

أحدث الأخبار التقنية، مدعومة برؤى خبراء

ابقَ على اطلاع دومًا بأهم—اتجاهات المجال وأكثرها إثارة للفضول—بشأن الذكاء الاصطناعي والأتمتة والبيانات وغيرها الكثير مع نشرة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! أنت مشترك.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

ما الطرق الأربع للحصول على البيانات؟

وفقًا لهيئة المسح الجيولوجي الأمريكية، هناك أربع طرق للحصول على البيانات:2

  • جمع بيانات جديدة
  • معالجة البيانات القديمة أو تحويلها
  • مشاركة البيانات أو تبادلها
  • شراء بيانات
جمع بيانات جديدة

يشمل جمع البيانات إنشاء بيانات أصلية من خلال وسائل مباشرة مثل الاستطلاعات، أو المقابلات، أو أجهزة الاستشعار، أو أجهزة إنترنت الأشياء (IoT). غالبًا ما تستخدم الشركات هذا الأسلوب لأبحاث السوق أو لمراقبة العمليات التشغيلية.

معالجة البيانات القديمة أو تحويلها

تركِّز هذه الطريقة على استرجاع البيانات القديمة للمؤسسة وتحويلها إلى صيغة موحَّدة وقابلة للاستخدام. يمكن أن تتراوح هذه العملية بين تحويلات ميدانية بسيطة (مثل التواريخ) إلى عمليات تطبيع معقدة قد تتطلب خبرة متقدمة في علم البيانات.

مشاركة البيانات أو تبادلها

يشمل تبادل البيانات نقل البيانات بين الأنظمة والمؤسسات. يمكن أن يحدث ذلك من خلال برامج البيانات المفتوحة الحكومية، وتبادلات البيانات الحضرية، ومزوِّدي البيانات التجاريين. تشمل آليات التبادل التقنية واجهات برمجة التطبيقات (APIs)، وعمليات نقل الملفات، ومسارات التدفق، والمنصات السحابية.

شراء بيانات

يمكن للمؤسسات أيضًا شراء البيانات الخارجية من أسواق البيانات. تعمل هذه المنصات على سد الفجوة بين المشترين والبائعين، حيث تقدِّم إمكانية التوافر التجاري وسهولة الوصول والفوائد القابلة للتوسع. يمكن أن تساعد منتجات البيانات المنسقة والجاهزة للاستخدام على تقليل النفقات العامة لجمع البيانات.

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

مصادر البيانات الشائعة

يمكن للمؤسسات جمع البيانات من عدد لا محدود تقريبًا من المصادر. قد تكون البيانات منظمة أو غير منظمة، سواء أكانت داخلية أم خارجية. ومن بين مصادر البيانات الأكثر شيوعًا ما يلي:

  • تطبيقات الأعمال: البيانات من تخطيط موارد المؤسسة (ERP) وإدارة علاقات العملاء (CRM) والأنظمة الأخرى.

  • وسائل التواصل الاجتماعي: بيانات التفاعل في الوقت الفعلي من منصات التواصل الاجتماعي.

  • البيانات المفتوحة: مجموعات البيانات من المؤسسات الأكاديمية والحكومات المستخدمة في الأبحاث وصنع السياسات.

  • البيانات العامة: البيانات من الحكومات والمؤسسات، مثل بيانات التعداد السكاني والبيانات الاقتصادية.

  • بيانات المعاملات: سجلات المبيعات والفواتير ومعلومات الدفع.

  • الاستطلاعات: البيانات التي يتم جمعها من خلال تعليقات العملاء أو استبيانات البحث.

  • تحليلات الويب: البيانات من التفاعلات مع مواقع الويب، مثل مشاهدات الصفحة والتحويلات.

  • أجهزة إنترنت الأشياء (IOT): البيانات في الوقت الفعلي من الأجهزة المتصلة، مثل العدادات الذكية أو الأجهزة المنزلية.

تحديات واعتبارات الحصول على البيانات

لدى المؤسسات التي تحصل على البيانات عدة اعتبارات يجب وضعها في الحسبان طوال عملية الحصول عليها.

  • خصوصية وأمن البيانات
  • جودة البيانات
  • توافق البيانات
  • احتياجات الأعمال مقابل التكاليف

خصوصية وأمن البيانات

تعني خصوصية البيانات -المعروفة أيضًا بخصوصية المعلومات- أن للأشخاص الحق في التحكُّم بكيفية جمع المؤسسات وتخزينها واستخدامها لبياناتهم الشخصية. أثناء الحصول على البيانات، قد تجمع المؤسسات معلومات المستخدم مثل عناوين البريد الإلكتروني أو بيانات المصادقة البيومترية. من الضروري أن تحصل المؤسسات على موافقة المستخدمين قبل معالجة هذه البيانات، وحمايتها من سوء الاستخدام، وتوفير أدوات للمستخدمين لإدارتها بشكل فعَّال.

تلتزم العديد من الشركات قانونًا باتباع هذه الممارسات بموجب لوائح مثل اللائحة العامة لحماية البيانات (GDPR). ومع ذلك، حتى دون قوانين خصوصية البيانات الرسمية، هناك فوائد لتنفيذ تدابير خصوصية البيانات. غالبًا ما تساعد الممارسات والأدوات التي تحمي خصوصية المستخدم أيضًا على تأمين المعلومات الرقمية من الوصول غير المصرح به أو الفساد أو السرقة.

جودة البيانات

يجب أن يكون ضمان جودة البيانات أولوية قصوى للمؤسسات التي تحصل على البيانات من مصادر متعددة. تشير جودة البيانات إلى مدى استيفاء مجموعة البيانات لمعايير الدقة والاكتمال والصلاحية والاتساق والتفرد وحُسن التوقيت والملاءمة للغرض المقصود. تدعم البيانات عالية الجودة اتخاذ قرارات دقيقة وعادلة وفعَّالة تتماشى مع أهداف العمل.

تتجاوز أهمية مراقبة جودة البيانات العمليات اليومية. تُعَد بيانات التدريب عالية الجودة أساسية لاعتماد الذكاء الاصطناعي والأتمتة بفاعلية. ومع ذلك، ينطبق المثل الشهير في الذكاء الاصطناعي "garbage in, garbage out" بشكل عام - فالبيانات ضعيفة الجودة في أي حالة استخدام تؤدي إلى مخرجات ضعيفة الجودة.

توافق البيانات

عندما تحصل المؤسسات على مجموعات بيانات من مصادر متنوعة، يجب عليها معالجة أي مشكلات توافُق قبل تحميلها في أنظمتها. تساعد ممارسات تنظيف البيانات والتوحيد على ضمان التزام البيانات بصيغة وهيكل متسقين، ما يجعل من السهل فهمها وتحليلها لاحقًا. على سبيل المثال، غالبًا ما تحتوي أسماء الشوارع على اتجاهات مثل شمال أو غرب. سيعمل التوحيد على تحويل هذه القيم إلى "N" أو "W".

قد تواجه المؤسسات في الصناعات شديدة التنظيم (مثل التمويل أو الرعاية الصحية) قواعد ولوائح إضافية خاصة بمعايير البيانات. على سبيل المثال، أقرّ قانون إخضاع التأمين الصحي لقابلية النقل والمساءلة (HIPAA) مجموعات رموز قياسية للتشخيصات والإجراءات، ما أدى إلى إتاحة لغة مشتركة لبيانات الرعاية الصحية.

احتياجات العمل مقابل التكاليف

قبل جمع البيانات، يجب على المؤسسات تحديد احتياجاتها من البيانات وإذا ما كانت تكلفة الاكتساب مبررة. بالإضافة إلى أي تكاليف مرتبطة بتنظيف البيانات وتوحيدها، يجب على الشركات مراعاة السعر، ورسوم الترخيص إن وجدت، وأي تكاليف إضافية منصوص عليها في عقود الشراء.

يتطلب الحصول الفعَّال على البيانات أيضًا بنية تحتية قوية للبيانات قادرة على التعامل معها وإدارتها وتخزينها. قد تحتاج المؤسسات إلى الاستثمار في مجالات مثل تخزين البيانات، والتحليلات، والأمن، والحوكمة لضمان تخزين البيانات التي تم الحصول عليها وحوكمتها واستخدامها بشكل صحيح.

هل الحصول على البيانات هو نفسه جمع البيانات؟

على الرغم من استخدامهما غالبًا بالتبادل، فإن مصطلحي الحصول على البيانات وجمع البيانات لهما معانٍ مختلفة.

جمع البيانات هو عملية جمع المعلومات غير المنسقة مباشرةً من مصادر مختلفة، وعادةً ما يقوم بها علماء البيانات والمحللون. في المقابل، يُعَد الحصول على البيانات مصطلحًا أوسع يتضمن جمع البيانات. ومع ذلك، فإنه يتضمن أيضًا الحصول على البيانات من خلال طرق إضافية مثل الشراكات واتفاقيات الترخيص وشراء البيانات والتحول من البيانات القديمة.

ما المقصود بالحصول على البيانات في التعلم الآلي؟

وفقًا لـ 72% من كبار الرؤساء التنفيذيين المتميزين، يعتمد تحقيق ميزة تنافسية على امتلاك أكثر نماذج الذكاء الاصطناعي التوليدي تقدمًا. ولكن حتى خوارزميات التعلم الآلي الأكثر تطورًا لا تكون فعَّالة إلا بقدر البيانات التي يتم تدريبها عليها. تُعَد البيانات عالية الجودة ضرورية لأنظمة الذكاء الاصطناعي للتعلم والتكيف وتقديم قيمة حقيقية.

لكن في الممارسة العملية، قد يكون الحصول على ما يكفي من البيانات ذات الصلة لتدريب نماذج الذكاء الاصطناعي أمرًا صعبًا. يمكن أن تَحُدّ المخاوف المتعلقة بالخصوصية والتكاليف المرتفعة والقيود القانونية أو التنظيمية من الوصول إلى طرق ومصادر الحصول على البيانات القيّمة مثل كشط الويب أو مجموعات البيانات العامة. في بعض الحالات، قد تحظر اللوائح جمع أنواع معينة من البيانات لحالات استخدام الذكاء الاصطناعي تمامًا.

للتخفيف من هذه العقبات، يتجه العديد من المؤسسات إلى البيانات الاصطناعية، وهي البيانات التي يتم إنشاؤها بشكل مصطنع والتي تحاكي بيانات العالم الحقيقي. تم إنشاء البيانات الاصطناعية باستخدام منهجيات إحصائية أو تقنيات الذكاء الاصطناعي المتقدمة مثل التعلم العميق والذكاء الاصطناعي التوليدي، وتوفِّر العديد من المزايا: تخصيصًا وخصوصية أكبر، واكتسابًا أكثر كفاءة، وبيانات أكثر ثراءً بشكل عام.

حلول ذات صلة
منصة IBM StreamSets

إنشاء أنظمة تدفق البيانات الذكية وإدارتها من خلال واجهة رسومية سهلة الاستخدام، ما يسهِّل تكامل البيانات بسلاسة عبر البيئات الهجينة ومتعددة السحابة.

استكشف StreamSets
IBM watsonx.data

يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.

اكتشف watsonx.data
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة مع IBM® Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.

اكتشف خدمات التحليلات
اتخِذ الخطوة التالية

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات اكتشف watsonx.data
الحواشي

1Big on data: Study shows why data-driven companies are more profitable than their peers,” Harvard Business Review study conducted for Google Cloud, 24 March 2023.

2Data Acquisition Methods,” The US Geological Survey.