أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
التقسيم المستند إلى وكلاء هو استخدام الذكاء الاصطناعي (AI) لتقسيم المدخلات النصية الطويلة إلى كتل أصغر حجمًا ومترابطة معنويًا تُعرف باسم الأجزاء. في حين أن العديد من إستراتيجيات التقسيم التقليدية تميل إلى استخدام أجزاء ذات حجم ثابت عند تقسيم النص، فإن التقسيم المستند إلى وكلاء يُقسِّم النص ديناميكيًا بناءً على السياق.
لا تستطيع النماذج اللغوية الكبيرة (LLM) معالجة تسلسل مدخلات نصية كبيرة بالكامل. تحدد نافذة سياق نموذج معالجة اللغة الطبيعية (NLP) الحد الأقصى لمقدار المحتوى الذي يمكن للنموذج استيعابه مع الحفاظ على فهم السياق. تستخدم أنظمة التعلم الآلي (ML) تقنيات التجزئة لتقسيم المستندات إلى أجزاء تتناسب مع نافذة سياق النموذج اللغوي الكبير.
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
استلزم تطوير التوليد المعزز بالاسترجاع (RAG) — الذي يربط النماذج اللغوية الكبيرة بمصادر البيانات الخارجية — إنشاء أنظمة تجزئة. ظهرت أنظمة التوليد المعزز بالاسترجاع للمساعدة على مواجهة مشكلة الهلوسة: عندما تقدم النماذج اللغوية الكبيرة إجابات لا تعكس النتائج أو المعلومات في العالم الحقيقي.
تساعد أنظمة التوليد المعزز بالاسترجاع النماذج اللغوية الكبيرة على توليد إجابات أكثر دقة وفائدة من خلال إقرانها بقاعدة معرفية إضافية. في كثير من الحالات، تكون قواعد معرفة التوليد المعزز بالاسترجاع عبارة عن قواعد بيانات موجهات تحتوي على مستندات تمنح النموذج اللغوي الكبير المتصل إمكانية الوصول إلى معارف خاصة بالمجال. وتحول نماذج التضمين المستندات إلى متجهات رياضية، ثم تفعل الشيء نفسه مع استفسارات المستخدم.
يعثر نظام التوليد المعزز بالاسترجاع في قاعدة بياناته للمتجهات على التضمينات التي تمثل المعلومات ذات الصلة وتطابق استعلام المستخدم. ثم يستخدم النموذج اللغوي الكبير البيانات المسترجعة لتزويد المستخدمين بإجابات أكثر صلة ودقة.
ولكن نظرًا إلى قيود نافذة السياق، لا يستطيع نموذج LLM معالجة مستند واحد في كل مرة. ومن ثَمَّ ظهر التقسيم كحل. من خلال تقسيم المستند إلى أجزاء، يمكن لنموذج LLM العثور بكفاءة على الأجزاء ذات الصلة في الوقت الفعلي مع الحفاظ على الفهم السياقي.
يسمح التقسيم المستند إلى وكلاء للنموذج اللغوي الكبير إنشاء أجزاء ذات معنى تساعده على تقديم إجابات أفضل، كما هو الحال مع استخدام التوليد المعزز بالاسترجاع. تأخذ بعض طرق التقسيم في الحسبان الدلالات، بينما تقسم طرق أخرى المستندات إلى أجزاء أصغر ذات طول ثابت.
تشمل طرق التجزئة الأخرى ما يأتي:
أبسط إستراتيجية للتجزئة، وهي التجزئة ذات الحجم الثابت، تقسم النص إلى كتل من الحجم نفسه، بناءً على عدد أحرف أو رموز محدد سابقًا. الرمز المميز هو الحد الأدنى من النص الذي يمكن للنموذج اللغوي الكبير معالجته — غالبًا كلمة أو جزء منها.
لتجنب تفتيت الجمل، تتضمن العديد من تطبيقات التقسيم ذات الحجم الثابت ميزة التداخل التي تكرر نهاية الجملة في بداية الجملة التالية. التقسيم بالحجم الثابت بسيط وخفيف حسابيًا، ولكنه ثابت - لا يمكن أن يأخذ في الحسبان كثافة المحتوى أو بنية المستند ويمكن أن ينشئ أجزاءً غير متماسكة دلاليًا.
يستخدم التقسيم المتكرر قائمة هرمية من فواصل النص المحددة مسبقًا لتقسيم النص بطريقة من المحتمل أن تكون أكثر تماسكًا. تشمل الفواصل هياكل موجودة بشكل طبيعي مثل الفقرات أو الجمل أو الكلمات. في مستند برمجة لغة Python، يمكن للفواصل تضمين تعريفات الفئات والدوال.
بالمقارنة مع التقسيم بالحجم الثابت، فإن التقسيم المتكرر ينشئ أجزاء أكثر تماسكًا باتباع الفواصل التي تحدث بشكل طبيعي في النص. يمكن أن يساعد استخدام التصنيف أيضًا خوارزمية التقسيم، أو أداة التقسيم، في معرفة مكان إجراء التقسيمات. RecursiveCharacterTextSplitter هو مقطع شائع متوفر في LangChain.
ولكن إذا كان النص يفتقر إلى فواصل واضحة، فلن تعرف خوارزميات التجزئة التكرارية أين تنشئ أجزاء جديدة. كما أن التجزئة التكرارية أكثر كثافة من الناحية الحسابية من التجزئة الثابت الحجم.
تستخدم التجزئة الدلالية نماذج التضمين لإنشاء تمثيلات رياضية لكل جملة. ثم تنشئ خوارزمية التجزئة أجزاء من الجمل المتشابهة دلاليًا، حيث ينشأ جزء جديد عند اكتشاف تغيير في الدلالات. تعزى التجزئة الدلالية إلى Greg Kamradt، الذي ناقش هذه التقنية على Github.1
التقسيم الدلالي يدرك السياق، ويبني أجزاء حول التدفق الطبيعي والمعنى الدلالي للمستند. وعندما يتغير الموضوع، يتم إنشاء جزء جديد. ومع ذلك، يمكن أن تظهر مشكلات عندما تناقش الفقرات مواضيع متعددة أو إذا لم يتم تعيين حد التقسيم بشكل صحيح لنوع المستند وبنيته.
التجزئة الدلالية أكثر كثافة من الناحية الحسابية من التجزئة التكرارية والتجزئة ذات الحجم الثابت، وتتطلب نماذج متقدمة لتحديد المحتوى الدلالي داخل النص.
التقسيم المستند إلى وكلاء هو مثال على الأتمتة المستندة إلى وكلاء: استخدام وكلاء الذكاء الاصطناعي لأتمتة سير العمل. في هذه الحالة، يؤتمت سير العمل بذكاء من خلال عملية تحديد كيفية تقسيم المستند إلى أجزاء أصغر تتناسب مع نافذة سياق النموذج اللغوي الكبير.
يشير الذكاء الاصطناعي الوكيل إلى استخدام أنظمة الذكاء الاصطناعي لاتخاذ قرارات مستقلة واتخاذ إجراءات من دون تدخل بشري. مع التقسيم المستند إلى وكلاء، يعمل الوكيل بمفرده لتحديد كيفية فصل النص وتسمية الأجزاء.
يُستمد التقسيم المستند إلى وكلاء من طرق التقسيم الأخرى لإنشاء أقسام متداخلة والتقسيم المتكرر، ثم يطبق الذكاء الاصطناعي التوليدي لتسمية كل قطعة بالبيانات الوصفية لتسهيل استرداد التوليد المعزز بالاسترجاع.
لا يزال التقسيم المستند إلى وكلاء في مراحله الاستكشافية. يتشارك المبدعون ويناقشون مناهجهم على GitHub. غالبًا ما يتم إنشاؤها باستخدام لغة البرمجة Python باستخدام إطار عمل النماذج اللغوية الكبيرة (LLM) مثل Llamaindex وLangchain بالإضافة إلى النماذج اللغوية الكبيرة (LLM) مفتوحة المصدر المتوفرة على Huggingface.
قد يحتوي سير عمل الذكاء الاصطناعي النموذجي للتقسيم المستند إلى وكلاء على الخطوات التالية:
باستخدام أدوات الأتمتة الذكية، يُستخرج النص من المستند المصدر، مثل ملف PDF، ويُنظف. يتضمن تنظيف النص إزالة العناصر الزائدة مثل أرقام الصفحات والتذييلات بحيث يُزود النموذج اللغوي الكبير بالنص الخام فقط.
تُقسِّم خوارزميات التقسيم التكرارية النص إلى أجزاء صغيرة لتجنب تقسيم الجمل إلى أجزاء. وكما هو الحال في التقسيم الدلالي، يُقسِّم التقسيم المستند إلى وكلاء النص ديناميكيًا بناءً على الدلالة والبنية والوعي بالسياق باستخدام تقنية تداخل الأجزاء.
تُعالج النماذج اللغوية الكبيرة، مثل GPT من OpenAI، الأجزاء وتجمعها وتثريها. وتُدمج الأجزاء الأصغر في أجزاء أكبر تحافظ على التماسك الدلالي. يثري النموذج اللغوي الكبير كل جزء ببيانات وصفية تتضمن عنوانًا وملخصًا لمحتويات الجزء. وتساعد البيانات الوصفية التي تُنشأ في الاستخدامات اللاحقة مثل أنظمة التوليد المعزز بالاسترجاع المستندة إلى وكلاء.
يُحول كل جزء إلى تضمين ويُخزن في قاعدة بيانات متجهات. وتستعلم نماذج الاسترجاع في قاعدة البيانات، وتستخدم البحث الدلالي للعثور على الأجزاء ذات البيانات الوصفية ذات الصلة، وتدرجها في الموجهات الخاصة بالنموذج اللغوي الكبير في نظام التوليد المعزز بالاسترجاع.
يحدد إعداد prompt_template في LangChain موجِّه الإدخال المقدم إلى نموذج LLM. تعرف على المزيد حول كيفية تحسين تقسيم التوليد المعزز بالاسترجاع باستخدام LangChain وwatsonx.ai.
بالمقارنة مع طرق التقسيم التقليدية، فإن ديناميكية التقسيم المستند إلى وكلاء وتصنيف البيانات الوصفية يجعلها مناسبة تمامًا لتنفيذ التوليد المعزز بالاسترجاع. وتشمل المزايا ما يأتي:
الاسترجاع الفعال: يمكن أن تساعد العناوين والملخصات التي تم إنشاؤها بواسطة الذكاء الاصطناعي لكل جزء أنظمة التوليد المعزز بالاسترجاع في العثور على المعلومات ذات الصلة بشكل أسرع في مجموعات البيانات المتصلة.
الاستجابات الدقيقة: يمكن أن يساعد التقسيم المتماسك دلاليًا مع البيانات الوصفية التي ينشئها الذكاء الاصطناعي أنظمة التوليد المعزز بالاسترجاع في زيادة الاستجابات التي يتم إنشاؤها بالبيانات ذات الصلة للحصول على إجابات أفضل.
المرونة: يمكن للتقسيم المدعوم بالذكاء الاصطناعي التعامل مع مجموعة واسعة من أنواع المستندات. يمكن أن تتكامل أنظمة التقسيم المستند إلى وكلاء مع مختلف سلاسل النماذج اللغوية الكبيرة والتوليد المعزز بالاسترجاع لمواكبة نمو المشروع وتوسعه.
الحفاظ على المحتوى: تعتمد أنظمة التقسيم المستند إلى وكلاء على طرق التقسيم السابقة لإنشاء أجزاء تحافظ على المعنى الدلالي والتماسك.
يمكنك إنشاء مساعدين ووكلاء ذكاء اصطناعي ووكلاء أقوياء يعملون على أتمتة مهام سير العمل والعمليات باستخدام الذكاء الاصطناعي التوليدي ونشرها وإدارتها.
يمكنك بناء مستقبل عملك باستخدام حلول الذكاء الاصطناعي الجديرة بالثقة.
تساعد خدمات IBM Consulting AI في إعادة تصور طريقة عمل الشركات باستخدام حلول الذكاء الاصطناعي من أجل النهوض بأعمالها.