ما المقصود بالتجزئة الوكيلية؟

المؤلفون

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

التقسيم المستند إلى وكلاء هو استخدام الذكاء الاصطناعي (AI) لتقسيم المدخلات النصية الطويلة إلى كتل أصغر حجمًا ومترابطة معنويًا تُعرف باسم الأجزاء. في حين أن العديد من إستراتيجيات التقسيم التقليدية تميل إلى استخدام أجزاء ذات حجم ثابت عند تقسيم النص، فإن التقسيم المستند إلى وكلاء يُقسِّم النص ديناميكيًا بناءً على السياق.

لا تستطيع النماذج اللغوية الكبيرة (LLM) معالجة تسلسل مدخلات نصية كبيرة بالكامل. تحدد نافذة سياق نموذج معالجة اللغة الطبيعية (NLP) الحد الأقصى لمقدار المحتوى الذي يمكن للنموذج استيعابه مع الحفاظ على فهم السياق. تستخدم أنظمة التعلم الآلي (ML) تقنيات التجزئة لتقسيم المستندات إلى أجزاء تتناسب مع نافذة سياق النموذج اللغوي الكبير.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

التقسيم ونظام التوليد المعزز بالاسترجاع

استلزم تطوير التوليد المعزز بالاسترجاع (RAG) — الذي يربط النماذج اللغوية الكبيرة بمصادر البيانات الخارجية — إنشاء أنظمة تجزئة. ظهرت أنظمة التوليد المعزز بالاسترجاع للمساعدة على مواجهة مشكلة الهلوسة: عندما تقدم النماذج اللغوية الكبيرة إجابات لا تعكس النتائج أو المعلومات في العالم الحقيقي.

تساعد أنظمة التوليد المعزز بالاسترجاع النماذج اللغوية الكبيرة على توليد إجابات أكثر دقة وفائدة من خلال إقرانها بقاعدة معرفية إضافية. في كثير من الحالات، تكون قواعد معرفة التوليد المعزز بالاسترجاع عبارة عن قواعد بيانات موجهات تحتوي على مستندات تمنح النموذج اللغوي الكبير المتصل إمكانية الوصول إلى معارف خاصة بالمجال. وتحول نماذج التضمين المستندات إلى متجهات رياضية، ثم تفعل الشيء نفسه مع استفسارات المستخدم.

يعثر نظام التوليد المعزز بالاسترجاع في قاعدة بياناته للمتجهات على التضمينات التي تمثل المعلومات ذات الصلة وتطابق استعلام المستخدم. ثم يستخدم النموذج اللغوي الكبير البيانات المسترجعة لتزويد المستخدمين بإجابات أكثر صلة ودقة.

ولكن نظرًا إلى قيود نافذة السياق، لا يستطيع نموذج LLM معالجة مستند واحد في كل مرة. ومن ثَمَّ ظهر التقسيم كحل. من خلال تقسيم المستند إلى أجزاء، يمكن لنموذج LLM العثور بكفاءة على الأجزاء ذات الصلة في الوقت الفعلي مع الحفاظ على الفهم السياقي.

أكاديمية الذكاء الاصطناعي

كن خبيرًا في الذكاء الاصطناعي

اكتسب المعرفة لتحديد أولويات استثمارات الذكاء الاصطناعي التي تدفع نمو الأعمال. ابدأ مع أكاديمية الذكاء الاصطناعي المجانية اليوم وتولَّ زمام المبادرة لتعزيز مستقبل الذكاء الاصطناعي في مؤسستك.

طرق التقسيم الأخرى

يسمح التقسيم المستند إلى وكلاء للنموذج اللغوي الكبير إنشاء أجزاء ذات معنى تساعده على تقديم إجابات أفضل، كما هو الحال مع استخدام التوليد المعزز بالاسترجاع. تأخذ بعض طرق التقسيم في الحسبان الدلالات، بينما تقسم طرق أخرى المستندات إلى أجزاء أصغر ذات طول ثابت.

تشمل طرق التجزئة الأخرى ما يأتي:

التقسيم بالحجم الثابت

أبسط إستراتيجية للتجزئة، وهي التجزئة ذات الحجم الثابت، تقسم النص إلى كتل من الحجم نفسه، بناءً على عدد أحرف أو رموز محدد سابقًا. الرمز المميز هو الحد الأدنى من النص الذي يمكن للنموذج اللغوي الكبير معالجته — غالبًا كلمة أو جزء منها.

لتجنب تفتيت الجمل، تتضمن العديد من تطبيقات التقسيم ذات الحجم الثابت ميزة التداخل التي تكرر نهاية الجملة في بداية الجملة التالية. التقسيم بالحجم الثابت بسيط وخفيف حسابيًا، ولكنه ثابت - لا يمكن أن يأخذ في الحسبان كثافة المحتوى أو بنية المستند ويمكن أن ينشئ أجزاءً غير متماسكة دلاليًا.

التقسيم التكراري

يستخدم التقسيم المتكرر قائمة هرمية من فواصل النص المحددة مسبقًا لتقسيم النص بطريقة من المحتمل أن تكون أكثر تماسكًا. تشمل الفواصل هياكل موجودة بشكل طبيعي مثل الفقرات أو الجمل أو الكلمات. في مستند برمجة لغة Python، يمكن للفواصل تضمين تعريفات الفئات والدوال.

بالمقارنة مع التقسيم بالحجم الثابت، فإن التقسيم المتكرر ينشئ أجزاء أكثر تماسكًا باتباع الفواصل التي تحدث بشكل طبيعي في النص. يمكن أن يساعد استخدام التصنيف أيضًا خوارزمية التقسيم، أو أداة التقسيم، في معرفة مكان إجراء التقسيمات. RecursiveCharacterTextSplitter هو مقطع شائع متوفر في LangChain.

ولكن إذا كان النص يفتقر إلى فواصل واضحة، فلن تعرف خوارزميات التجزئة التكرارية أين تنشئ أجزاء جديدة. كما أن التجزئة التكرارية أكثر كثافة من الناحية الحسابية من التجزئة الثابت الحجم.

التقسيم الدلالي

تستخدم التجزئة الدلالية نماذج التضمين لإنشاء تمثيلات رياضية لكل جملة. ثم تنشئ خوارزمية التجزئة أجزاء من الجمل المتشابهة دلاليًا، حيث ينشأ جزء جديد عند اكتشاف تغيير في الدلالات. تعزى التجزئة الدلالية إلى Greg Kamradt، الذي ناقش هذه التقنية على Github.1

التقسيم الدلالي يدرك السياق، ويبني أجزاء حول التدفق الطبيعي والمعنى الدلالي للمستند. وعندما يتغير الموضوع، يتم إنشاء جزء جديد. ومع ذلك، يمكن أن تظهر مشكلات عندما تناقش الفقرات مواضيع متعددة أو إذا لم يتم تعيين حد التقسيم بشكل صحيح لنوع المستند وبنيته.

التجزئة الدلالية أكثر كثافة من الناحية الحسابية من التجزئة التكرارية والتجزئة ذات الحجم الثابت، وتتطلب نماذج متقدمة لتحديد المحتوى الدلالي داخل النص.

كيف يعمل التقسيم المستند إلى وكلاء؟

التقسيم المستند إلى وكلاء هو مثال على الأتمتة المستندة إلى وكلاء: استخدام وكلاء الذكاء الاصطناعي لأتمتة سير العمل. في هذه الحالة، يؤتمت سير العمل بذكاء من خلال عملية تحديد كيفية تقسيم المستند إلى أجزاء أصغر تتناسب مع نافذة سياق النموذج اللغوي الكبير.

يشير الذكاء الاصطناعي الوكيل إلى استخدام أنظمة الذكاء الاصطناعي لاتخاذ قرارات مستقلة واتخاذ إجراءات من دون تدخل بشري. مع التقسيم المستند إلى وكلاء، يعمل الوكيل بمفرده لتحديد كيفية فصل النص وتسمية الأجزاء.

يُستمد التقسيم المستند إلى وكلاء من طرق التقسيم الأخرى لإنشاء أقسام متداخلة والتقسيم المتكرر، ثم يطبق الذكاء الاصطناعي التوليدي لتسمية كل قطعة بالبيانات الوصفية لتسهيل استرداد التوليد المعزز بالاسترجاع.

لا يزال التقسيم المستند إلى وكلاء في مراحله الاستكشافية. يتشارك المبدعون ويناقشون مناهجهم على GitHub. غالبًا ما يتم إنشاؤها باستخدام لغة البرمجة Python باستخدام إطار عمل النماذج اللغوية الكبيرة (LLM) مثل Llamaindex وLangchain بالإضافة إلى النماذج اللغوية الكبيرة (LLM) مفتوحة المصدر المتوفرة على Huggingface. 

قد يحتوي سير عمل الذكاء الاصطناعي النموذجي للتقسيم المستند إلى وكلاء على الخطوات التالية:

1. إعداد النص

باستخدام أدوات الأتمتة الذكية، يُستخرج النص من المستند المصدر، مثل ملف PDF، ويُنظف. يتضمن تنظيف النص إزالة العناصر الزائدة مثل أرقام الصفحات والتذييلات بحيث يُزود النموذج اللغوي الكبير بالنص الخام فقط.

2. تقسيم النص

تُقسِّم خوارزميات التقسيم التكرارية النص إلى أجزاء صغيرة لتجنب تقسيم الجمل إلى أجزاء. وكما هو الحال في التقسيم الدلالي، يُقسِّم التقسيم المستند إلى وكلاء النص ديناميكيًا بناءً على الدلالة والبنية والوعي بالسياق باستخدام تقنية تداخل الأجزاء.

3. وضع العلامات على الأجزاء

تُعالج النماذج اللغوية الكبيرة، مثل GPT من OpenAI، الأجزاء وتجمعها وتثريها. وتُدمج الأجزاء الأصغر في أجزاء أكبر تحافظ على التماسك الدلالي. يثري النموذج اللغوي الكبير كل جزء ببيانات وصفية تتضمن عنوانًا وملخصًا لمحتويات الجزء. وتساعد البيانات الوصفية التي تُنشأ في الاستخدامات اللاحقة مثل أنظمة التوليد المعزز بالاسترجاع المستندة إلى وكلاء.

4. التضمين

يُحول كل جزء إلى تضمين ويُخزن في قاعدة بيانات متجهات. وتستعلم نماذج الاسترجاع في قاعدة البيانات، وتستخدم البحث الدلالي للعثور على الأجزاء ذات البيانات الوصفية ذات الصلة، وتدرجها في الموجهات الخاصة بالنموذج اللغوي الكبير في نظام التوليد المعزز بالاسترجاع.

يحدد إعداد prompt_template في LangChain موجِّه الإدخال المقدم إلى نموذج LLM. تعرف على المزيد حول كيفية تحسين تقسيم التوليد المعزز بالاسترجاع باستخدام LangChain وwatsonx.ai.

فوائد التقسيم المستند إلى الوكلاء

بالمقارنة مع طرق التقسيم التقليدية، فإن ديناميكية التقسيم المستند إلى وكلاء وتصنيف البيانات الوصفية يجعلها مناسبة تمامًا لتنفيذ التوليد المعزز بالاسترجاع. وتشمل المزايا ما يأتي:

  • الاسترجاع الفعال: يمكن أن تساعد العناوين والملخصات التي تم إنشاؤها بواسطة الذكاء الاصطناعي لكل جزء أنظمة التوليد المعزز بالاسترجاع في العثور على المعلومات ذات الصلة بشكل أسرع في مجموعات البيانات المتصلة.

  • الاستجابات الدقيقة: يمكن أن يساعد التقسيم المتماسك دلاليًا مع البيانات الوصفية التي ينشئها الذكاء الاصطناعي أنظمة التوليد المعزز بالاسترجاع في زيادة الاستجابات التي يتم إنشاؤها بالبيانات ذات الصلة للحصول على إجابات أفضل.

  • المرونة: يمكن للتقسيم المدعوم بالذكاء الاصطناعي التعامل مع مجموعة واسعة من أنواع المستندات. يمكن أن تتكامل أنظمة التقسيم المستند إلى وكلاء مع مختلف سلاسل النماذج اللغوية الكبيرة والتوليد المعزز بالاسترجاع لمواكبة نمو المشروع وتوسعه.

  • الحفاظ على المحتوى: تعتمد أنظمة التقسيم المستند إلى وكلاء على طرق التقسيم السابقة لإنشاء أجزاء تحافظ على المعنى الدلالي والتماسك.

حلول ذات صلة
وكلاء الذكاء الاصطناعي للأعمال

يمكنك إنشاء مساعدين ووكلاء ذكاء اصطناعي ووكلاء أقوياء يعملون على أتمتة مهام سير العمل والعمليات باستخدام الذكاء الاصطناعي التوليدي ونشرها وإدارتها.

    استكشف watsonx Orchestrate
    حلول وكلاء الذكاء الاصطناعي من IBM

    يمكنك بناء مستقبل عملك باستخدام حلول الذكاء الاصطناعي الجديرة بالثقة.

    استكشف حلول وكلاء الذكاء الاصطناعي
    خدمات الذكاء الاصطناعي لدى IBM Consulting

    تساعد خدمات IBM Consulting AI في إعادة تصور طريقة عمل الشركات باستخدام حلول الذكاء الاصطناعي من أجل النهوض بأعمالها.

    استكشف خدمات الذكاء الاصطناعي
    اتخِذ الخطوة التالية

    سواء اخترت تخصيص التطبيقات والمهارات المُعدّة مسبقًا أو إنشاء خدمات مخصصة مستندة إلى وكلاء ونشرها باستخدام استوديو الذكاء الاصطناعي، فإن منصة IBM watsonx تُلبي احتياجاتك.

    استكشف watsonx Orchestrate استكشف watsonx.ai