ما هو استرجاع البيانات؟

By Alice Gomstyn , Alexandra Jonker

تعريف استرجاع البيانات

استرجاع البيانات هو عملية الوصول إلى معلومات جاهزة للاستخدام من مصدر بيانات.

تقليديًا، كان مصطلح استرجاع البيانات يشير إلى استخدام لغات الاستعلام لاسترجاع البيانات المنظمة من قواعد البيانات. ومع ذلك، فمع توسع أحجام البيانات وتقدم التكنولوجيا، أصبح هذا المصطلح مرتبطًا باسترجاع أنواع شتى من البيانات، سواء كانت منظمة أو غير منظمة.

تُستخدَم عملية استرجاع البيانات من قِبل المؤسسات للاستفادة من مجموعات البيانات الثرية والمتزايدة باستمرار، سواء داخل أنظمتها الخاصة أو من مستودعات الطرف الثالث. من خلال أدوات استرجاع البيانات، يستطيع مستخدمو المؤسسات والباحثون وغيرهم العثور على إجابات للأسئلة وتحديد نقاط البيانات الرئيسية—من مصادر قد يكون من الصعب، أو حتى من المستحيل، الوصول إليها عبر الطرق اليدوية.

بعد أن كانت تقتصر في الماضي على عمليات البحث البدائية في قواعد البيانات، أصبحت أنظمة استرداد البيانات اليوم معززة في كثير من الأحيان بتقنيات الأتمتة والذكاء الاصطناعي (AI) القادرة على إدارة طلبات البيانات المعقدة، والاتصال بمزيد من قواعد المعرفة، وتحسين تنفيذ الاستعلامات ديناميكيًا. تساعد تقنيات التعلم الآلي، ومعالجة اللغة الطبيعية، والتوليد المعزز بالاسترجاع (RAG) في تحسين دقة وملاءمة البيانات المقدمة استجابةً للاستفسارات.

لماذا يعد استرجاع البيانات مهمًا؟

القرار الذكي يبدأ عندما تتمكن المؤسسات من استخلاص الرؤى من البيانات عالية الجودة.

ولكن قبل البدء في عملية التحليل، يتعين على المؤسسات أولاً الوصول إلى تلك البيانات. هذه المهمة قد تكون صعبة بشكل خاص عندما تكون البيانات مستقرة ضمن مجموعة بيانات ضخمة أو بيئة بيانات شاسعة، مثل قاعدة بيانات واسعة للأبحاث العلمية أو نظام تخزين سحابي متعدد وهجين وممتد.

يؤدي النمو الهائل للبيانات إلى تفاقم هذه التحديات: حيث يتم إنشاء أكثر من 400 مليون تيرابايت من البيانات يومياً، وفقاً لبعض التقديرات، في حين تدير المؤسسات نفسها غالباً واحداً بيتابايت من البيانات أو أكثر.¹

إنَّ التطورات في مجال الذكاء الاصطناعي قد غيَّرت أيضاً احتياجات البيانات لدى الشركات. تتطلب سير عمل الذكاء الاصطناعي وصولاً سريعاً إلى البيانات، بما في ذلك الوصول إلى كميات هائلة من البيانات غير المنظمة.

تاريخيًا، ركزت عمليات استرداد البيانات على الاستعلامات من المصادر المنظمة مثل نظم إدارة قواعد البيانات العلائقية. ومع ذلك، وبدلاً من استخدام الأساليب اليدوية المستهلكة للوقت لفحص مصادر البيانات الداخلية والخارجية الضخمة اليوم، تتوجه المؤسسات إلى استرداد البيانات الحديث. يعتمد هذا النهج على تقنيات مثل قواعد البيانات المتجهة والتوليد المعزز بالاسترجاع لتلبية الطلب على البيانات الموجودة خارج قواعد البيانات العلائقية الداخلية.

وبشكل خاص، أثبتت تقنية التوليد المعزّز بالاسترجاع القائم على الوكلاء كفاءة وقوة استثنائية في تلبية هذا الطلب.أوضح David Levy، وهو مهندس تكنولوجيا استشاري في هندسة العملاء لدى IBM، قدرات تقنية التوليد المعزّز بالاسترجاع القائم على الوكلاء في عرض توضيحي لقناة IBM Technology.

"تعدّ تقنية التوليد المعزّز بالاسترجاع القائم على الوكلاء تطوراً نوعياً في كيفية تحسين مسار عمل التوليد المعزّز بالاسترجاع، حيث تتخطى مجرد توليد الاستجابات البسيطة لتنتقل إلى اتخاذ قرارات أكثر ذكاءً. من خلال السماح للوكيل باختيار أفضل مصادر البيانات، بل وربما دمج معلومات خارجية، مثل البيانات في الوقت الفعلي أو خدمات الطرف الثالث، يمكننا إنشاء مسار عمل أكثر استجابة ودقة وتكيفًا"، بحسب تصريح Levy.

ما النتيجة؟ يمكن للمؤسسات والمنظمات الأخرى تحقيق استفادة أكبر من بياناتها المؤسسية المنظمة وغير المنظمة، بالإضافة إلى الأحجام المتنامية من البيانات الناتجة خارج أنظمتها البيئية. تم تمكينهم من الوصول إلى البيانات الدقيقة التي يحتاجون إليها في الوقت المناسب، مما يتيح إجراء تحليلات واستخلاص رؤى قائمة على البيانات تؤدي إلى تحقيق نتائج أعمال أفضل.

استرجاع البيانات مقابل استرجاع المعلومات مقابل استخراج البيانات

غالبًا ما يُستخدم المصطلحان استرجاع البيانات واسترجاع المعلومات (IR) بشكل تبادلي—ولسبب وجيه.

في حين ارتبط هذان النوعان تقليديًا بفئات مختلفة من البيانات (المنظمة لاسترداد البيانات، وغير المنظمة لاسترجاع المعلومات)، فإن التطورات في علم البيانات قد أزالت الفوارق الواضحة بينهما. لا يقتصر الأمر الآن على إمكانية شمول عملية استرجاع البيانات للبيانات غير المنظمة فحسب، بل تتيح بعض أنظمة استرجاع المعلومات أيضًا "استرجاع المستندات المنظمة" (من خلال استخدام لغة XML لفهرسة المستندات النصية).

ويمكن القول إن الاختلاف الأكثر بروزاً بين الاثنين يتجلى في نوعية النتائج التي ينتجها كل منهما. يركز استرجاع البيانات على إرجاع مطابقات دقيقة لاستعلامات المستخدمين، بينما توفر أنظمة استرجاع المعلومات (IR) — والتي تشكل العمود الفقري لمحركات بحث الويب — نتائج متعددة (مثل صفحات الويب) مرتبة حسب صلتها بالمعلومات المطلوبة.

كما يُخلط في بعض الأحيان بين كلٍّ من استرجاع البيانات واسترجاع المعلومات وبين استخراج البيانات. ومع ذلك، فإن التمييز هنا واضح تمامًا: فبينما يركز استرجاع البيانات واسترجاع المعلومات على الوصول إلى البيانات وتقديمها، فإن استخراج البيانات ينطوي على كشف الأنماط والرؤى المستمدة من البيانات. بمعنى آخر، إنه يشمل التحليل، وليس مجرد استرداد البيانات. بالإضافة إلى ذلك، يتم تطبيق تنقيب البيانات على مجموعات البيانات الكبيرة، في حين يمكن استخدام استرجاع البيانات واسترجاع المعلومات (IR) مع مجموعات البيانات من أي حجم.

أحدث الأخبار التقنية، مدعومة برؤى خبراء

ابقَ على اطلاع دائم على أبرز الاتجاهات في مجالات الذكاء الاصطناعي، والأتمتة، والبيانات، وغيرها الكثير من خلال رسالة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.

أساليب استرجاع البيانات التقليدية

يمكن تقسيم طرق استرجاع البيانات إلى فئتين: التقنيات التقليدية وتقنيات الذكاء الاصطناعي. ² تشمل التقنيات التقليدية ما يلي:

استخدام لغات الاستعلام
الفهرسة
تحسين الاستعلام

استخدام لغات الاستعلام

يتم استرجاع البيانات من أنظمة إدارة قواعد البيانات الكلاسيكية (DBMS) عبر لغات الاستعلام. لغة الاستعلام الأبرز هي لغة الاستعلام الهيكلية، أو SQL، والتي تُستخدم لقواعد البيانات العلائقية. يقوم المستخدمون بنشر أوامر SQL لاسترجاع البيانات وإنجاز مهام أخرى، بما في ذلك الإضافات والتحديثات وعمليات الحذف.

الفهرسة

الفهرسة هي إنشاء بنيات بيانات قابلة للبحث تشير إلى سجلات البيانات في جداول أكبر. يمكن لعمليات البحث فحص الفهارس بدلاً من الجداول بأكملها، مما يؤدي إلى معالجة استعلامات أسرع وأكثر كفاءة.

تحسين الاستعلام

في نظم إدارة قواعد البيانات، تعمل أدوات تحسين الاستعلامات على رفع كفاءة أداء الاستعلام عن طريق اختيار المسار الأكثر فاعلية من بين خطط الاستعلام المختلفة، أو الطرق المتنوعة لتنفيذ الاستعلامات. تُحدِّد برامج التحسين، على سبيل المثال، ما إذا كان ينبغي استخدام الفهارس، وطريقة قراءة الجدول، وعند طلب عملية ربط، الترتيب الذي يتم بموجبه ربط الجداول.

لقد أثبتت هذه التقنيات الراسخة فعاليتها في استرجاع البيانات المنظمة ودعم عمليات البحث الأساسية، ولكن عُرف عنها أيضًا قصورها في مجالات متعددة؛ بما في ذلك استرجاع البيانات غير المنظمة، وتنفيذ الاستعلامات المعقدة، واستيعاب المعنى الدلالي، ودعم قابليتها للتوسع، وتقديم نتائج في الوقت الفعلي.³

تقنيات الذكاء الاصطناعي لاسترجاع البيانات

تساعد تقنيات استرجاع البيانات المستندة إلى الذكاء الاصطناعي في تعويض أوجه القصور في تقنيات استرجاع البيانات التقليدية، مما يحسن الأداء وتجربة المستخدم.⁴

تتضمن تقنيات استرجاع البيانات بالذكاء الاصطناعي الرئيسية ما يلي:

بحث المتجهات
التعلم الآلي والتعلم العميق
معالجة اللغة الطبيعية
التوليد المعزز بالاسترجاع والتوليد المعزز بالاسترجاع القائم على الوكلاء

بحث المتجهات

في قاعدة بيانات المتجهات، يتم تخزين أنواع مختلفة من البيانات، بما في ذلك النصوص والصور، كتمثيلات رقمية تُعرف تضمين المتجهات. يتم تجميع عمليات تضمين المتجهات التي تحمل أبعادًا متشابهة معًا. أثناء بحث المتجهات، تقوم الأنظمة باسترجاع البيانات والمستندات ذات الصلة باستخدام عمليات تضمين المتجهات المشابهة لمصطلحات البحث. تعتمد عمليات البحث هذه عادةً على خوارزميات الجار الأقرب التي تستنتج الروابط بين نقاط البيانات بناءً على قربها.

التعلم الآلي والتعلم العميق

يمكن لخوارزميات التعلم الآلي المُدرَّبة على البيانات التاريخية وسلوك المستخدمين تقديم توصيات بالاستعلامات للمستخدمين بناءً على أنماط الاستعلام الشائعة—ومن ثمّ إظهار البيانات ذات الصلة. بالإضافة إلى ذلك، يمكن لمجموعة فرعية من التعلم الآلي تُعرف باسم التعلم العميق أن تساعد في استرداد البيانات غير المنظمة. على سبيل المثال، تدعم الشبكات العصبية الالتفافية (CNNs) تقنية رؤية الكمبيوتر، والتي يمكن استخدامها للبحث في ملفات الصور والفيديو.⁵

معالجة اللغة الطبيعية

تتيح تقنية معالجة اللغة الطبيعية، أو ما يُعرف اختصاراً بـ NLP، إمكانية إجراء استعلامات بحث سهلة الاستخدام؛ حيث تتيح للمستخدمين صياغة استعلاماتهم بأسلوب حواري، بدلاً من صياغتها في شكل أوامر برمجية بلغة الاستعلام. ومن ثمَّ، بدلاً من الاعتماد الكلي على مطابقة الكلمات الرئيسية، يمكن لمحركات البحث المدعومة بتقنيات معالجة اللغة الطبيعية (NLP) إجراء بحث دلالي: حيث تحدد النتائج ذات الصلة التي تعكس الغرض من الاستعلام، حتى وإن لم تكن مصطلحات البحث الدقيقة موجودة في المستند.

التوليد المعزز للاسترجاع والتوليد المعزز للاسترجاع القائم على الوكلاء

يربط التوليد المعزز الاسترجاع النماذج اللغوية الكبيرة بقواعد المعرفة الخارجية باستخدام واجهات برمجة التطبيقات، أو APIs. يتيح ذلك للأنظمة استرداد المعلومات الخاصة بالمجال وفي الوقت المناسب.

تضيف أنظمة التوليد المعزز بالاسترجاع القائم على الوكلاء قدرات متقدمة إلى أنظمة التوليد المعزز بالاسترجاع التقليدية، وذلك بفضل ميزة الاستدلال المستند إلى الوكلاء الذكاء الاصطناعي التي تحسن الاستعلامات ديناميكيًا وترفع من كفاءة أداء استرجاع البيانات. تشمل مكونات أنظمة التوليد المعزز بالاسترجاع القائم على الوكلاء ما يلي:

القدرات الأساسية للبحث: يتم تعزيز استرجاع البيانات من خلال أساليب استرجاع البيانات التقليدية والمدعومة بالذكاء الاصطناعي، بما في ذلك الفهرسة ومزيج من البحث بالكلمات الرئيسية وبحث المتجهات (المعروف بالبحث الهجين).

التخزين المؤقت الدلالي: يمكن لأنظمة التوليد المُعزز بالاسترجاع القائمة على الوكلاء تخزين مجموعات سابقة من الاستعلامات والسياقات والنتائج والرجوع إليها. يمكن أن تفيد هذه الذاكرة عمليات البحث الجديدة، مما يؤدي إلى نتائج أكثر ملاءمة وتخصيصاً.

التجزئة الوكيلية: تقسم التجزئة الوكيلية الإدخال النصي الكبير إلى قطع صغيرة متجانسة دلالياً (أجزاء) مخزنة في قاعدة بيانات المتجهات. يسمح تماسكها الدلالي للأنظمة باسترجاع إجابات أكثر اكتمالاً وأعلى جودة على الاستفسارات.

وكلاء التوجيه: يحدد وكلاء التوجيه أي مصادر وأدوات معرفية خارجية ستعالج استعلام المستخدم بشكل أفضل.

وكلاء تخطيط الاستعلام: يقوم وكلاء تخطيط الاستعلامات بتفكيك استعلامات المستخدمين المعقدة إلى عمليات تسلسلية خطوة بخطوة، ثم إرسال الاستعلامات الفرعية الناتجة إلى الوكلاء الآخرين في نظام التوليد المعزز بالاسترجاع (RAG). بمجرد أن يقدم هؤلاء الوكلاء إجاباتهم الخاصة، يقوم وكلاء تخطيط الاستعلام بدمجها للحصول على استجابة شاملة.

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

انتقل إلى الحلقة

حالات استخدام استرجاع البيانات

تقنيات وحلول استرجاع البيانات يمكن أن تحسن الوصول إلى البيانات وإدارتها عبر العديد من الصناعات والتخصصات.

الرعاية الصحية

استخدم أحد مزودي الخدمات لمنشآت الرعاية الصحية تقنيات معالجة اللغة الطبيعية والتوليد المعزز بالاسترجاع لتسريع استرجاع البيانات الهامة للأعمال بنسبة 90%.

الخدمات المالية

قامت إحدى شركات التكنولوجيا المالية بنشر روبوت محادثة لخدمة العملاء مدعوم بتقنية التوليد المعزز بالاسترجاع (RAG)، حيث يقوم باسترجاع المعلومات في الوقت الفعلي، مما أدى إلى تقليل متوسط وقت التفاعل بنسبة 80% مقارنة بمراكز الاتصال التقليدية.

التجارة الإلكترونية

تمكّن شركات التجارة الإلكترونية المتسوقين من تحميل صور لما ينوون شراءه، وتعمل حلول البحث المدعومة برؤية الكمبيوتر على استرجاع معلومات حول منتجات مماثلة لتلك الموجودة في الصور.

تحديات استرجاع البيانات

بينما تستكشف المؤسسات حلول استرجاع البيانات، فمن الضروري أخذ التحديات المحتملة بعين الاعتبار.

جودة البيانات

ومع تحقيق الشركات نجاحاً متزايداً في استرجاع البيانات، فقد تكتشف أن بعضاً من هذه البيانات يعاني من كثرة الفجوات والأخطاء. ممارسات إدارة جودة البيانات مثل تنميط البيانات وتنقية البيانات، يمكنها مساعدة المؤسسات في تحسين مجموعات البيانات لتحقيق الدقة والكمال والاتساق والأبعاد الأخرى للجودة.

الأمان

إن تنفيذ قدرات متطورة لاسترجاع البيانات قد ينطوي على مخاطر في غياب تدابير الأمن المناسبة لضمان عدم استرداد البيانات الحساسة من قِبل الأشخاص الخطأ. يمكن أن تتضمن منصات البيانات المدارة بحوكمة عناصر أمان مدمجة، وهويات، وعناصر تحكم في الوصول لمنع الوصول غير المصرح به ودعم الامتثال التنظيمي.

الاحتكار لمنتج معين

غالباً ما تقوم حلول البيانات المملوكة بدمج عمليات استرجاع البيانات، والتنسيق، ونماذج الذكاء الاصطناعي في أنظمة مغلقة، مما يحد من قدرة المؤسسات ويقيدها في بيئات تكنولوجية خاضعة لسيطرة المورد. توفر حلول البيانات مفتوحة المصدر التي تمتاز بتقنية التوليد المعزز بالاسترجاع القائم على الوكلاء وغيرها من التقنيات خياراً بديلاً، مما يمنح المؤسسات تحكماً أكبر في بنياتها التكنولوجية ووظائف إدارة البيانات الخاصة بها.

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

عرض ثلاثي الأبعاد لمجموعة من الرموز المصطفة مثل كاميرا ومقبض مستوى الصوت وحافظة

اقرأ دليل قادة البيانات لتتعرّف على كيفية تهيئة بيانات مؤسستك للذكاء الاصطناعي.

الموارد

دليل قادة البيانات للبيانات الجاهزة للذكاء الاصطناعي

اكتشف كيف يمكنك التغلب على تحديات البيانات الراهنة، وحدّد خطوات عملية لتجهيز بياناتك لعصر الذكاء الاصطناعي.

الذكاء الاصطناعي لديك لا يستطيع التصرف في ما لا يمكنه الوصول إليها

اكتشف كيف يمكن للرؤية الشاملة لبيانات مؤسستك بأي صيغة، سواء كانت منظمة أو غير منظمة، أن تجعلها جاهزة لعصر الذكاء الاصطناعي.

IBM watsonx.data - مستودع بحيرة البيانات الوحيد، الهجين والمفتوح

تحسين دقة الذكاء الاصطناعي باستخدام البيانات المنظمة وغير المنظمة الجاهزة للذكاء الاصطناعي

إجابات سريعة ودقيقة للأسئلة الحساسة للأعمال

اكتشف كيف تجعل CrushBank دعم مكتب المساعدة أكثر سهولة في الوصول وأكثر فعالية للعملاء

حلول ذات صلة

IBM® watsonx.data بحث مؤسسي مدعوم بالذكاء الاصطناعي

احصل على إجابات يمكنك الوثوق بها من خلال وكلاء ذكاء اصطناعي مدركين للسياق مدعومين ببيانات محكومة ومتصلة، من دون الحاجة لإعادة بناء المنصة أو من دون تقييد.

اكتشف watsonx.data AI Enterprise Search

برمجيات وحلول إدارة البيانات

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

اكتشف حلول إدارة البيانات

خدمات استشارات البيانات والذكاء الاصطناعي

وسِّع نطاق الذكاء الاصطناعي بنجاح من خلال وجود الاستراتيجية الصحيحة، والبيانات الموثوق بها، والأمن، والحوكمة الفعَّالة.

استكشِف خدمات استشارات البيانات والذكاء الاصطناعي

اتخذ الخطوة التالية

قدّم إجابات موثوقة وسياقية من مختلف أقسام مؤسستك، عبر وكلاء الذكاء الاصطناعي المدعومين ببيانات أعمال متصلة ومحكومة.

الحواشي

¹ "تقرير إدارة الذكاء الاصطناعي والمعلومات." AvePoint. 2024.

^{2، 3، 4، 5} "الذكاء الاصطناعي للاسترجاع الذكي للبيانات." Advances in Smart Computing and Applications. 15 أغسطس 2025.