مخطط انسيابي يحتوي على أشكال ورموز مختلفة، بما في ذلك فقاعة كلام باللون الأزرق، وعلامة استفهام، وعلامة صح.

التلخيص هو عملية اختزال المستندات الطويلة في ملخص موجز يعكس النقاط الرئيسية للمحتوى الأصلي. من منظور تقني، يُعَد التلخيص تحديًا لأنه يتطلب مجموعة واسعة من القدرات: فهم النصوص الطويلة، وتحديد النقاط والموضوعات الرئيسية، وتوليد نص جديد يعكس المقصود من العمل الأكبر. لحسن الحظ، تُعَد النماذج اللغوية الكبيرة (LLMs) مناسبة تمامًا لهذه المهام. باستخدام النماذج اللغوية الكبيرة، يمكن للمهندسين إنشاء حلول تساعد المستخدمين على تقليل العبء الناتج عن قراءة المستندات الطويلة بالتفصيل؛ ما يؤدي إلى زيادة الإنتاجية وتحقيق تجارب مستخدم أكثر إيجابية.

 

البنية

 

رسم توضيحي للعناصر الرئيسية وروابطها البينية لحل تلخيص المستندات.
رسم توضيحي للعناصر الرئيسية وروابطها البينية لحل تلخيص المستندات.

يوضح المخطط أعلاه شكلَي نمط التلخيص. أبسط أشكال هذا النمط هو النسخة Stuff. في هذا النمط:

  1. تتم قراءة محتويات المستند و"حشوه"، أي نسخه بالكامل، في مطالبة نموذج لغوي كبير.
  2. غالبًا ما يتم استخدام قالب المطالبة "لتغليف" المحتوى بتوجيهات وكلمات مفتاحية لتوجيه النموذج الهدف نحو توليد ملخص.
  3. يتم إرسال المطالبة الناتجة إلى نموذج لغوي كبير مدرَّب، والذي يعمل على توليد الملخص على هيئة رد.

يُعَد نهج Stuff ممتازًا للمستندات الصغيرة، لكنه لا يعمل مع المستندات الكبيرة جدًا بالنسبة لنافذة سياق النموذج اللغوي الكبير، أو مع مجموعات المستندات. لحسن الحظ، لدينا النسخة Map-Reduce لهذه الحالات. في مرحلة Map من النسخة، يتم "حشو" المستندات الفردية و/أو أجزاء من المستندات داخل مطالبات النموذج اللغوي الكبير باستخدام نهج Stuff. يتم تجميع الملخصات الناتجة عن المستندات و/أو الأجزاء بواسطة التطبيق، ثم يتم إرسالها إلى النموذج اللغوي الكبير لتوليد ملخص شامل للعمل الأكبر و/أو لمجموعة المستندات. من الممكن استخدام النموذج اللغوي الكبير نفسه لكلٍّ من مرحلتَي Map وReduce، لكن غالبًا ما يحتاج نموذج Reduce إلى ضبط دقيق لتوليد ملخصات مجمَّعة دون فقدان التفاصيل الأساسية.

من الناحية المفاهيمية، يشبه التلخيص مهمة الترجمة الآلية: نريد أن يقوم النموذج اللغوي الكبير "بترجمة" مستند طويل إلى ملخص أقصر. لذلك، تُعَد نماذج التشفير وفك التشفير مثل BART وT5 مناسبة جدًا لحلول التلخيص. غالبية لنماذج اللغوية الكبيرة المناسبة للتلخيص مدرَّبة باستخدام مجموعة أو أكثر من مجموعات البيانات العامة المتاحة، المستمدة من مصادر مثل الأخبار، وويكيبيديا، والتشريعات، والمنشورات العلمية، لكنها عمومًا تحتاج إلى ضبط دقيق قبل أن تتمكن من توليد ملخصات مقبولة للعمليات التجارية المستهدفة وبيانات الإدخال.

عادةً ما تتطلب عملية الأعمال المعقدة عدة نماذج مضبوطة بدقة لتوليد ملخصات لمجموعات مستخدمين مختلفة. على سبيل المثال، قد تتطلب عملية مطالبات التأمين النماذج اللغوية الكبيرة مضبوطة لتلخيص وتوجيه المطالبات، واكتشاف الاحتيال والتحقيق فيه، وأيضًا لتلخيص التقارير من مقدِّمي الخدمات مثل الاستشاريين الطبيين أو الهندسيين.

 

حالات الاستخدام

التلخيص هو نمط حل محتمل لأي سيناريو أعمال حيث يحتاج المستخدمون عادةً لقراءة وفهم مستندات كبيرة دون الحاجة إلى معرفة تفصيلية بمحتويات المستند حتى مرحلة لاحقة في عملية الأعمال.

تشمل حالات الاستخدام المحتملة:

  • الفصل في مطالبات التأمين. غالبًا ما تتم قراءة مطالبات التأمين، وخاصةً المطالبات التجارية المعقدة ومطالبات التأمين الصحي الجماعي، عدة مرات خلال عملية التقديم والفصل. في كثير من الأحيان، تتم قراءة المطالبات في البداية لتحديد القسم و/أو المسؤول المناسب للتعامل مع المطالبة. ثم يتطلب الأمر القراءة المتعمقة لفهم تقارير التقييم المستقل والتعامل معها، وتحديد التغطية، وتقييم احتمالية الاحتيال. حل التلخيص الذي يستخرج النقاط المهمة من النص لديه القدرة على تحسين هذه العمليات بشكل كبير.

  • العقود. غالبًا ما تكون العقود التجارية معقدة وصعبة الفهم، حتى بالنسبة إلى المعاملات البسيطة نسبيًا. حل التلخيص القادر على تلخيص الشروط والأحكام الرئيسية للعقد بلغة واضحة وبسيطة يمكن أن يكون مفيدًا بشكل كبير لرجال الأعمال، والمحامين، والمساعدين القانونيين عبر عدة صناعات.

  • الملخصات الطبية. يُعَد تجميع الملخصات الطبية من سجلات المرضى مهمة شاقة تتطلب خبرة كبيرة لأدائها بشكل صحيح. وحل التلخيص القادر على استخراج العناصر الرئيسية من سجل مريض كبير والمساعدة على ترميز السجلات (باستخدام ICD-10 أو أي نظام ترميز تشخيصي آخر) سيُحسِّن كلًا من سرعة عملية التلخيص ودقتها.

  • دعم المنتجات والخدمات. غالبًا ما يُطلب من موظفي دعم العملاء الانخراط في جهود حل المشكلات التي قد تمتد عبر عدة تفاعلات بين العملاء وفريق الدعم. وحل التلخيص القادر على تلخيص حالة الدعم بدقة يمكن أن يقلل الوقت اللازم لموظفي الدعم لفهم الحالة بسرعة، ويقلل بالقدر الممكن الوقت المطلوب لحل الحالات.

قرارات واعتبارات تخص البنية

تتطلب حلول التلخيص من المهندسين اتخاذ عدد من القرارات المهمة لتحقيق المتطلبات الوظيفية وغير الوظيفية للحل.

اختيار نموذج التوليد

كما هو موثَّق أعلاه، العديد من النماذج اللغوية الكبيرة قادرة على تنفيذ تلخيص النصوص مباشرةً دون الحاجة إلى ضبط إضافي. إذا كانت القدرات المضمَّنة في النموذج تلبي متطلبات الحل، يجب على المهندسين النظر في عوامل مثل حجم النموذج (الذي يحدِّد متطلبات البنية التحتية)، وجودة الردود، وسرعة الاستدلال. وإذا كان الضبط الدقيق مطلوبًا، يجب على المهندسين أيضًا مراعاة حجم بيانات الضبط، وتعقيد عملية الضبط اللازمة لتكييف نموذج أساس محدد وفقًا لاحتياجاتهم المحددة.

مقاييس التقييم

قد يكون تقييم أداء حلول الذكاء الاصطناعي التوليدي تحديًا بسبب الطابع النوعي لمهمتها، أي كيف يكون أحد الملخصات الناتجة "أفضل" من الآخر. تشمل المقاييس الشائعة: التعقيد (perplexity)، والطلاقة (fluency)، والملاءمة (relevancy)، والتماسك (coherence)، بالإضافة إلى مقاييس BLU وROUGE. يجب على المهندس اختيار المقاييس التي تتماشى مع المتطلبات الوظيفية للحل والأهداف العامة للأعمال.

الموارد
شاهد العرض التوضيحي لترى كيف يمكن لمنصة watsonx.ai تحويل نص كثيف إلى نظرة عامة تنفيذية مخصصة حسب احتياجاتك، وتسجيل النقاط الرئيسية من التقارير المالية ونصوص الاجتماعات وغير ذلك الكثير.
بنية الذكاء الاصطناعي التوليدي من IBM
بنية الذكاء الاصطناعي التوليدي من IBM هي بنية الذكاء الاصطناعي التوليدي الكاملة من IBM داخل أداة IBM IT Architect Assistant (IIAA)، وهي أداة لتطوير وإدارة البنية.
الخطوات التالية

تحدَّث إلى خبرائنا حول تنفيذ نمط نشر السحابة الهجينة.

المساهمون

Chris Kirby، وMihai Criveti

تاريخ التحديث: 15 ديسمبر 2023