تعتمد أساسيات الأعمال الحديثة -مثل صناعة القرار القائمة على البيانات، وتحليل البيانات، والذكاء الاصطناعي- جميعها على توفُّر كميات كبيرة من البيانات عالية الجودة. في عملية الحصول على البيانات، يتم استرداد البيانات التي تجعل هذه القرارات المبنية على المعلومات وهذه التقنيات ممكنة. رغم أن المفهوم قد يبدو واضحًا، فإن الحصول على البيانات قد يكون معقدًا، خاصةً في عصر البيانات الكبيرة.
أصبحت مجموعات البيانات اليوم ضخمة ومعقدة. حيث يمكن أن تصل أحجامها إلى تيرابايت أو بيتابايت، وتأتي بصيغ منظمة أو غير منظمة، وتتوزع عبر مصادر متنوعة. تؤدي هذه التعقيدات إلى ظهور تحديات تتعلق بإدارة أحجام البيانات، والحوكمة، والأمن طوال عملية الحصول على البيانات.
ومع ذلك، عندما تتم بشكل فعَّال، يمكن أن تكون عملية الحصول على البيانات مسارًا يوفر وقودًا عالي الجودة للمبادرات الاستراتيجية. في الواقع، وجدت دراسة من Harvard Business Review أن المؤسسات التي تستخدم البيانات الكبيرة والذكاء الاصطناعي بنجاح تفوقت على نظيراتها في مقاييس الأعمال الرئيسية، بما في ذلك الكفاءة التشغيلية، ونمو الإيرادات، وتجربة العملاء.1
يمكن أن يُشير مصطلح "الحصول على البيانات" أيضًا إلى جمع الإشارات الفيزيائية أو الكهربائية التي تقيس الظروف الواقعية - عادةً بيانات المستشعرات. وتشمل الأمثلة على ذلك قياسات درجة الحرارة والضغط والظواهر الفيزيائية الأخرى.
تتم معالجة هذه الإشارات وتحويلها إلى قيم رقمية قابلة للاستخدام باستخدام أجهزة الحصول على البيانات أو أجهزة DAQ. ويُعتبر هذا الاستخدام شائعًا في مجالات مثل مراقبة البيئة والأتمتة الصناعية والبحث العلمي.
النشرة الإخبارية الخاصة بالمجال
ابقَ على اطلاع دومًا بأهم—اتجاهات المجال وأكثرها إثارة للفضول—بشأن الذكاء الاصطناعي والأتمتة والبيانات وغيرها الكثير مع نشرة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.
سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.
وفقًا لهيئة المسح الجيولوجي الأمريكية، هناك أربع طرق للحصول على البيانات:2
يشمل جمع البيانات إنشاء بيانات أصلية من خلال وسائل مباشرة مثل الاستطلاعات، أو المقابلات، أو أجهزة الاستشعار، أو أجهزة إنترنت الأشياء (IoT). غالبًا ما تستخدم الشركات هذا الأسلوب لأبحاث السوق أو لمراقبة العمليات التشغيلية.
تركِّز هذه الطريقة على استرجاع البيانات القديمة للمؤسسة وتحويلها إلى صيغة موحَّدة وقابلة للاستخدام. يمكن أن تتراوح هذه العملية بين تحويلات ميدانية بسيطة (مثل التواريخ) إلى عمليات تطبيع معقدة قد تتطلب خبرة متقدمة في علم البيانات.
يشمل تبادل البيانات نقل البيانات بين الأنظمة والمؤسسات. يمكن أن يحدث ذلك من خلال برامج البيانات المفتوحة الحكومية، وتبادلات البيانات الحضرية، ومزوِّدي البيانات التجاريين. تشمل آليات التبادل التقنية واجهات برمجة التطبيقات (APIs)، وعمليات نقل الملفات، ومسارات التدفق، والمنصات السحابية.
يمكن للمؤسسات أيضًا شراء البيانات الخارجية من أسواق البيانات. تعمل هذه المنصات على سد الفجوة بين المشترين والبائعين، حيث تقدِّم إمكانية التوافر التجاري وسهولة الوصول والفوائد القابلة للتوسع. يمكن أن تساعد منتجات البيانات المنسقة والجاهزة للاستخدام على تقليل النفقات العامة لجمع البيانات.
يمكن للمؤسسات جمع البيانات من عدد لا محدود تقريبًا من المصادر. قد تكون البيانات منظمة أو غير منظمة، سواء أكانت داخلية أم خارجية. ومن بين مصادر البيانات الأكثر شيوعًا ما يلي:
لدى المؤسسات التي تحصل على البيانات عدة اعتبارات يجب وضعها في الحسبان طوال عملية الحصول عليها.
تعني خصوصية البيانات -المعروفة أيضًا بخصوصية المعلومات- أن للأشخاص الحق في التحكُّم بكيفية جمع المؤسسات وتخزينها واستخدامها لبياناتهم الشخصية. أثناء الحصول على البيانات، قد تجمع المؤسسات معلومات المستخدم مثل عناوين البريد الإلكتروني أو بيانات المصادقة البيومترية. من الضروري أن تحصل المؤسسات على موافقة المستخدمين قبل معالجة هذه البيانات، وحمايتها من سوء الاستخدام، وتوفير أدوات للمستخدمين لإدارتها بشكل فعَّال.
تلتزم العديد من الشركات قانونًا باتباع هذه الممارسات بموجب لوائح مثل اللائحة العامة لحماية البيانات (GDPR). ومع ذلك، حتى دون قوانين خصوصية البيانات الرسمية، هناك فوائد لتنفيذ تدابير خصوصية البيانات. غالبًا ما تساعد الممارسات والأدوات التي تحمي خصوصية المستخدم أيضًا على تأمين المعلومات الرقمية من الوصول غير المصرح به أو الفساد أو السرقة.
يجب أن يكون ضمان جودة البيانات أولوية قصوى للمؤسسات التي تحصل على البيانات من مصادر متعددة. تشير جودة البيانات إلى مدى استيفاء مجموعة البيانات لمعايير الدقة والاكتمال والصلاحية والاتساق والتفرد وحُسن التوقيت والملاءمة للغرض المقصود. تدعم البيانات عالية الجودة اتخاذ قرارات دقيقة وعادلة وفعَّالة تتماشى مع أهداف العمل.
تتجاوز أهمية مراقبة جودة البيانات العمليات اليومية. تُعَد بيانات التدريب عالية الجودة أساسية لاعتماد الذكاء الاصطناعي والأتمتة بفاعلية. ومع ذلك، ينطبق المثل الشهير في الذكاء الاصطناعي "garbage in, garbage out" بشكل عام - فالبيانات ضعيفة الجودة في أي حالة استخدام تؤدي إلى مخرجات ضعيفة الجودة.
عندما تحصل المؤسسات على مجموعات بيانات من مصادر متنوعة، يجب عليها معالجة أي مشكلات توافُق قبل تحميلها في أنظمتها. تساعد ممارسات تنظيف البيانات والتوحيد على ضمان التزام البيانات بصيغة وهيكل متسقين، ما يجعل من السهل فهمها وتحليلها لاحقًا. على سبيل المثال، غالبًا ما تحتوي أسماء الشوارع على اتجاهات مثل شمال أو غرب. سيعمل التوحيد على تحويل هذه القيم إلى "N" أو "W".
قد تواجه المؤسسات في الصناعات شديدة التنظيم (مثل التمويل أو الرعاية الصحية) قواعد ولوائح إضافية خاصة بمعايير البيانات. على سبيل المثال، أقرّ قانون إخضاع التأمين الصحي لقابلية النقل والمساءلة (HIPAA) مجموعات رموز قياسية للتشخيصات والإجراءات، ما أدى إلى إتاحة لغة مشتركة لبيانات الرعاية الصحية.
قبل جمع البيانات، يجب على المؤسسات تحديد احتياجاتها من البيانات وإذا ما كانت تكلفة الاكتساب مبررة. بالإضافة إلى أي تكاليف مرتبطة بتنظيف البيانات وتوحيدها، يجب على الشركات مراعاة السعر، ورسوم الترخيص إن وجدت، وأي تكاليف إضافية منصوص عليها في عقود الشراء.
يتطلب الحصول الفعَّال على البيانات أيضًا بنية تحتية قوية للبيانات قادرة على التعامل معها وإدارتها وتخزينها. قد تحتاج المؤسسات إلى الاستثمار في مجالات مثل تخزين البيانات، والتحليلات، والأمن، والحوكمة لضمان تخزين البيانات التي تم الحصول عليها وحوكمتها واستخدامها بشكل صحيح.
على الرغم من استخدامهما غالبًا بالتبادل، فإن مصطلحي الحصول على البيانات وجمع البيانات لهما معانٍ مختلفة.
جمع البيانات هو عملية جمع المعلومات غير المنسقة مباشرةً من مصادر مختلفة، وعادةً ما يقوم بها علماء البيانات والمحللون. في المقابل، يُعَد الحصول على البيانات مصطلحًا أوسع يتضمن جمع البيانات. ومع ذلك، فإنه يتضمن أيضًا الحصول على البيانات من خلال طرق إضافية مثل الشراكات واتفاقيات الترخيص وشراء البيانات والتحول من البيانات القديمة.
وفقًا لـ 72% من كبار الرؤساء التنفيذيين المتميزين، يعتمد تحقيق ميزة تنافسية على امتلاك أكثر نماذج الذكاء الاصطناعي التوليدي تقدمًا. ولكن حتى خوارزميات التعلم الآلي الأكثر تطورًا لا تكون فعَّالة إلا بقدر البيانات التي يتم تدريبها عليها. تُعَد البيانات عالية الجودة ضرورية لأنظمة الذكاء الاصطناعي للتعلم والتكيف وتقديم قيمة حقيقية.
لكن في الممارسة العملية، قد يكون الحصول على ما يكفي من البيانات ذات الصلة لتدريب نماذج الذكاء الاصطناعي أمرًا صعبًا. يمكن أن تَحُدّ المخاوف المتعلقة بالخصوصية والتكاليف المرتفعة والقيود القانونية أو التنظيمية من الوصول إلى طرق ومصادر الحصول على البيانات القيّمة مثل كشط الويب أو مجموعات البيانات العامة. في بعض الحالات، قد تحظر اللوائح جمع أنواع معينة من البيانات لحالات استخدام الذكاء الاصطناعي تمامًا.
للتخفيف من هذه العقبات، يتجه العديد من المؤسسات إلى البيانات الاصطناعية، وهي البيانات التي يتم إنشاؤها بشكل مصطنع والتي تحاكي بيانات العالم الحقيقي. تم إنشاء البيانات الاصطناعية باستخدام منهجيات إحصائية أو تقنيات الذكاء الاصطناعي المتقدمة مثل التعلم العميق والذكاء الاصطناعي التوليدي، وتوفِّر العديد من المزايا: تخصيصًا وخصوصية أكبر، واكتسابًا أكثر كفاءة، وبيانات أكثر ثراءً بشكل عام.
صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.
يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.
استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.
1 “Big on data: Study shows why data-driven companies are more profitable than their peers,” Harvard Business Review study conducted for Google Cloud, 24 March 2023.
2 “Data Acquisition Methods,” The US Geological Survey.