ما هو استخراج المعلومات؟

17 فبراير 2025

وقت القراءة

المؤلفين

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models

Gather

ما هو استخراج المعلومات؟

استخراج المعلومات (IE) هو عملية آلية لاستخراج المعلومات المنظمة من البيانات النصية شبه المنظمة أو غير المهيكلة، وتحويل مصادر نص اللغة البشرية مثل ملفات PDF إلى تنسيق منظم وقابل للبحث وقراءته آليا. تعتمد معالجة اللغة الطبيعية (NLP) على استخراج المعلومات لتحديد البيانات المهمة في الإدخال.

يمكن لخوارزميات استخراج المعلومات تحديد الكيانات، بما في ذلك الأسماء والعلاقات والأحداث والمشاعر وغيرها، ثم تصنيفها وتخزينها في قاعدة بيانات لاستخدامها مرة أخرى. المعلومات المنظمة الناتجة لها تنسيق موحد ويتم تخزينها عادةً في صفوف وأعمدة تحدد سماتها. يعد التخزين الموحد هو العامل الأساسي الذي يميز بين البيانات المنظمة والبيانات غير المنظمة.

تلتزم جميع قيم البيانات داخل نفس قاعدة البيانات بنفس التنسيق المنظم بنفس السمات المحددة. يتم أيضا تمييز السمات العلائقية لربط قواعد البيانات معًا بناءً على السمات المشتركة.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

لماذا يعتبر استخراج المعلومات مهمًا؟

يسمح استخراج المعلومات للمؤسسات بتحويل المستندات إلى مجموعات بيانات قابلة للتنفيذ وتوليد رؤى قيّمة منها. من المتوقع أن ينمو سوق معالجة المستندات الذكية—الذي يسهله استخراج المعلومات—بمعدل نمو سنوي مركب (CAGR) يبلغ 33.1% حتى عام 2030 من قيمة 2.3 مليار دولار أمريكي في عام 2024.1

استرجاع المعلومات

تمهد أنظمة استخراج المعلومات الطريق لاسترجاع المعلومات آليا: استخدام خوارزميات الذكاء الاصطناعي (AI) للعثور تلقائيًا على البيانات ذات الصلة واسترجاعها من قواعد المعرفة. يعد استرجاع المعلومات مكونًا أساسيًا للتوليد المعزز بالاسترجاع (RAG)، وهي عملية يمكن من خلالها لنماذج اللغات الكبيرة (LLMs) الوصول إلى المزيد من البيانات للحصول على دقة عالية في حالات الاستخدام الخاصة بالمجال. 

يمكن لتقنية التوليد المعزز بالاسترجاع (RAG) أن تجعل روبوتات المحادثة ذات نماذج اللغة الكبيرة (LLM) أكثر دقة عند تطبيقها على مهام الإجابة على الأسئلة، وذلك لأن النموذج اللغزي الكبير يمكنه الاعتماد على معرفة أوسع خارج بيانات التدريب الخاصة به لتوليد إجابات أفضل.

اتخاذ القرارات القائمة على البيانات

يمكن لقادة الأعمال استخدام المعلومات المستخرجة لتسهيل اتخاذ قرارات قائمة على البيانات في الوقت الفعلي. استخراج المعلومات هي مرحلة أولية في دورة معالجة المعلومات الأكبر التي يتم فيها الحصول على المعلومات وتنظيمها وتخزينها ومعالجتها وإتاحتها للاستخدام. 

توفر مسارات البيانات المعلومات عبر المؤسسة، وتربط نقاط الإدخال—على سبيل المثال، الطلبات عبر الإنترنت—بقواعد البيانات. ومن ثم، تعتمد أدوات العرض المصور للبيانات على تلك البيانات لإنشاء مخططات ورسوم بيانية في الوقت الفعلي، مما يكشف عن رؤى قابلة للتنفيذ تدفع عملية اتخاذ القرارات الاستراتيجية. 

يمكن استخدام مجموعات البيانات الكبيرة للبيانات المنظمة الناتجة عن أنظمة استخراج المعلومات لإنشاء تقارير وملخصات. يمكن لخوارزميات التعلم الآلي لاستخراج المعلومات (IE) أيضًا إجراء تلخيص للنصوص لتكثيف المستندات التفصيلية إلى نقاط مختصرة قابلة للهضم بسرعة مع تعليقات مرجعية سريعة. 

على سبيل المثال، يمكن لاستخراج المعلومات في مجال الرعاية الصحية أن يجمع تلقائيًا تقريرًا للمريض من ملفات متعددة، مما قد يسهل على الأطباء تشخيص المشكلات ووصف العلاجات. يمكن للمتخصصين الماليين إنشاء توقعات أكثر دقة باستخدام معلومات مستقاة من تقارير متعددة ومقالات إخبارية ومصادر أخرى.

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

أنواع استخراج المعلومات

يتم تصنيف مهام استخراج المعلومات بناء على نوع المعلومات التي يتم تحديدها وتصنيفها. يمكن لأنظمة استخراج المعلومات التعامل مع مهام تشمل: 

  • التعرف على الكيانات المسماة (NER) 
  • استخراج العلاقات
  • استخراج الأحداث 
  • تحليل المشاعر

التعرف على الكيانات المسماة (NER) 

التعرف على الكيانات المسماة (NER) هو مهمة استخراج المعلومات لتحديد الكيانات المسماة في البيانات غير المنظمة. الكيانات المسماة هي كائنات واقعية يمكن تحديدها بشكل فريد. في الأساس، هم الأسماء الصحيحة للبيانات. تشمل الكيانات المسماة الأشخاص والتواريخ والشركات والأماكن والمنتجات ويمكن أن تكون مادية أو مجردة. 

في الجملة "اعتبارًا من يناير 2025، Arvind Krishna هو الرئيس التنفيذي لشركة IBM"، تشمل الكيانات المسماة يناير 2025، و Arvind Krishna، والرئيس التنفيذي، و IBM". 

ربط الكيانات

ربط الكيانات هو عملية معرفة ما إذا كانت الكيانات المتعددة تشير إلى نفس الكائن في العالم الحقيقي. عند إجراء استخراج المعلومات على مقال يشير إلى "Arvind Krishna" و"Krishna" و"الرئيس التنفيذي لشركة IBM"، فإن المهمة الفرعية لربط الكيانات ستحدد جميع الإشارات الثلاثة على أنها إشارات إلى نفس الشخص. يُشار إلى ربط الكيانات أيضًا باسم الإسناد المرجعي.

استخراج العلاقات (RE)

استخراج العلاقات هو مهمة استخراج المعلومات لتحديد وتصنيف العلاقات بين الكيانات في مصدر البيانات. يمكن أن يؤدي الكشف عن العلاقات بين الكيانات إلى فتح الباب أمام الرؤى التي قد تمر دون أن يلاحظها أحد. 

في المثال الذي ذكرناه في بداية هذا القسم، سترسم عملية "استخراج العلاقات" علاقة "يعمل في" بين "Arvind Krishna" و"IBM" مع لقب "الرئيس التنفيذي".

استخراج العلاقة مقابل استخراج الروابط

غالبًا ما يتم استخدام مصطلحي استخراج العلاقة و استخراج الروابط بالتبادل، لكن بعض علماء البيانات يجادلون بضرورة التمييز الدقيق. بينما يغطي استخراج العلاقات أي محاولة لتمييز العلاقات بين الكيانات، غالبًا ما يتم استخدام استخراج الروابط فيما يتعلق بتطبيق نماذج التعلم الآلي لإنجاز هذه المهمة.

استخراج الأحداث

استخراج الأحداث هو الطريقة التي تتعرف بها أنظمة استخراج المعلومات على الأحداث المنفصلة في مجموعة من النصوص المدخلة. يمكن للكلمات، مثل "موعد" أو "اجتماع"، تشغيل تسلسل استخراج الحدث، وكذلك التواريخ. يغطي استخراج الأحداث الحدث نفسه والوقت والتاريخ الذي وقع فيه وأي مشاركين مذكورين. 

في الجملة النموذجية، "حضر Arvind Krishna المؤتمر في يناير 2025"، ستحدد خوارزمية استخراج الأحداث أن المؤتمر عُقد في يناير 2025 وأن أحد الحاضرين كان الرئيس التنفيذي لشركة IBM Arvind Krishna.

تحليل المشاعر

تحليل المشاعر يحدد الشعور الذي يوصله جزء من النص. يعد تحليل المشاعر أداة قيّمة لإجراء أبحاث السوق وفهم سلوك العملاء. 

إذا تم تزويدنا بمجموعة بيانات تتكون من مراجعات المستخدمين، يمكن لخوارزمية استخراج المعلومات أن توفر رؤى دلالية تكشف عن النسب المئوية للمستهلكين الذين يشعرون بالإيجاب أو السلب أو الحياد تجاه المنتج. يمكن لمديري المنتجات بعد ذلك أخذ هذه الرؤى وتعديل المنتج لجعله أكثر جاذبية لشريحة أكبر من المستخدمين الحاليين والمحتملين.

كيف يعمل استخراج المعلومات؟

تعمل عملية استخراج المعلومات عن طريق تحليل مصادر البيانات غير المنظمة باستخدام خوارزميات التعلم الآلي لتحديد البيانات ذات المعنى. تقوم أنظمة استخراج المعلومات بتسمية كيانات البيانات المكتشفة وتخزينها في قاعدة بيانات منظمة وقابلة للاستعلام لاسترجاعها بكفاءة. 

تشمل تقنيات استخراج المعلومات ما يلي: 

  • مستندة إلى القواعد
  • التصنيف (التعلم الآلي)
  • تصنيف التسلسل

هذه الأساليب ليست متعارضة—فقد أدت التطورات في استخراج المعلومات إلى نماذج هجينة تجمع بين طرق تحسين النتائج.

استخراج المعلومات المستندة إلى القواعد

يقوم استخراج المعلومات المستندة إلى القواعد بتحليل المستندات لتحديد الكيانات استنادا إلى "القواعد" المعمول بها—الأنماط والتعريفات المحددة مسبقًا المعروفة عن الكيانات في النص. غالبا ما يتم تطبيق استخراج المعلومات المستندة إلى القواعد على مصادر البيانات شبه المنظمة، وهي البيانات التي لم يتم تنظيمها بالكامل ولكن لا تزال تحتوي على بعض سمات التعريف مثل العلامات أو البيانات الوصفية. 

يعمل استخراج المعلومات المستندة إلى القواعد من أعلى إلى أسفل عن طريق التقدم من الحالات العامة إلى حالات محددة ، بينما تقوم الطريقة من أسفل إلى أعلى بعكس ذلك.

استخراج المعلومات المستندة إلى التصنيف

استخراج المعلومات المستندة إلى التصنيف هو عملية من خطوتين تقترب من استخراج المعلومات كمهمة تصنيف تعليمي خاضعة للإشراف. أولاً، يتم تدريب نماذج التعلّم الآلي على مجموعات بيانات مصنفة لتعلّم الروابط بين الكيانات والسمات المقابلة لها. ثم تتنبأ النماذج بالعلامات الخاصة بالكيانات التي تحددها في البيانات غير المنظمة الجديدة. 

تصنيف التسلسل

تشكل عملية تصنيف التسلسل حجر الأساس في معالجة اللغة الطبيعية وتستخدم نماذج التعلم العميق لتحديد العناصر وتصنيفها—على سبيل المثال، الكلمات الموجودة في موجِّه روبوت المحادثة. تُعد عملية تصنيف التسلسل خطوة حساسة في معالجة اللغة الطبيعية (NLP)، حيث تساعد في ضمان معرفة الشبكة العصبية لكيفية تفسير الإدخال على وجه التحديد. 

بالإضافة إلى تحديد الكيانات في البيانات، فإن تصنيف التسلسل يلتقط أيضًا التبعيات بين أجزاء تسلسل الإدخال. التبعيات هي نوع خاص من العلاقات التي يعتمد فيها جزء واحد من تسلسل الإدخال على جزء آخر ليتم تفسيره بشكل صحيح. تتفوق نماذج المحولات مثل تقنيات الأغراض العامة (GPTs) في التقاط التبعيات، ولهذا السبب يمكنها الحفاظ على الفهم السياقي عبر تسلسلات الإدخال الطويلة.

حلول ذات صلة
IBM watsonx Orchestrate

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate
أدوات معالجة اللغة الطبيعية وواجهات برمجة التطبيقات

تسريع قيمة الأعمال باستخدام مجموعة قوية ومرنة من مكتبات وخدمات وتطبيقات الذكاء الاصطناعي.

استكشف حلول معالجة اللغة الطبيعية
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM® watsonx™ Orchestrate®.

استكشف watsonx Orchestrate استكشف حلول معالجة اللغة الطبيعية