11 يوليو 2025
في 11 يونيو 2025، أعلنت IBM عن إتاحة نهجها الجديد في تكامل البيانات: watsonx.data integration. يوفر هذا الحل واجهة تحكُّم موحَّدة لتصميم مسارات بيانات على شكل دفعات، وتدفق في الوقت الفعلي، وتكرار للبيانات، مدعومة بإمكانات مدمجة لقابلية الملاحظة.
في إطار الحل نفسه، يمكن للفرق بناء مسارات بيانات غير منظمة قابلة لإعادة الاستخدام بجانب المسارات المنظمة، مما يفتح كنزًا من البيانات التي كان يصعب الوصول إليها سابقًا لدعم حالات استخدام جديدة وتلبية متطلبات بيئات البيانات الحديثة المتنامية. بفضل قدرات تكامل البيانات غير المنظمة في watsonx.data integration ، يمكن للمستخدمين بناء مسارات بيانات بطريقة سلسة لاستيعاب وتحويل ومعالجة كميات كبيرة من البيانات غير المنظمة -بما في ذلك المستندات وملفات PDF وPPT وغيرها- في غضون دقائق فقط.
يجمع هذا المنتج بين ابتكارات رائدة مفتوحة المصدر وأخرى خاصة، مباشرةً من IBM Research. من أبرز المزايا الرائدة للمنتج ما يلي:
تم تصميمه للتعامل مع بيانات المؤسسات التي لم تتم الاستفادة منها بشكل كافٍ تقليديًا، ويمثِّل watsonx.data integration خطوة كبيرة نحو إتاحة البيانات غير المنظمة للذكاء الاصطناعي والتحليلات.
معظم البيانات العامة ممثَّلة بالفعل بشكل جيد في نماذج الأساس الحالية؛ لذا فإن الميزة التنافسية الحقيقية تأتي من الاستفادة من بيانات مؤسستك. ومع ذلك، فإن 90% من بيانات المؤسسات غير منظمة، وهي كمية هائلة من المعلومات غير المستغلة، بدءًا من المستندات وملفات PDF ووصولًا إلى الرسائل الإلكترونية والصور والسجلات - حيث يظل معظمها خارج نطاق تحليلات البيانات التقليدية وسير عمل الذكاء الاصطناعي. وبسبب تعقيدات الوصول والإدارة، لا تتم الاستفادة إلا من 1% فقط في تطبيقات الذكاء الاصطناعي التوليدي.
تعرَّف على المزيد حول تحديات أساليب البيانات غير المنظمة التقليدية. تم تصميم IBM watsonx.data integration ومنظومته الأوسع من الأدوات لمواجهة هذه التحديات بشكل مباشر. فيما يلي السمات الرئيسية لميزة UDI التي تساعد المؤسسات على التعامل مع بيئة البيانات سريعة التطور اليوم.
يتضمن هذا الحل موصِّلات جاهزة تمكِّن المستخدمين من استيعاب مجموعة واسعة من مصادر البيانات والتنسيقات شائعة الاستخدام -إلى جانب بياناتها الوصفية وضوابط الوصول المرتبطة بها- على نطاق واسع ومع تطورها المستمر. على الرغم من وجود بعض الموصِّلات للبيانات غير المنظمة في السوق، إلا أن القليل منها قادر على التكيُّف ديناميكيًا مع تغيُّر المستندات أو الصلاحيات مع مرور الوقت.
تم تطوير watsonx.data integration بالتعاون مع IBM Research، ويجمع بين الابتكار الخاص والتقنيات مفتوحة المصدر الرائدة لإدخال معالجة البيانات غير المنظمة ضمن مسارات البيانات الحديثة. تتضمن لوحة العرض المرئية الخاصة به مشغِّلات مصممة خصيصًا للنصوص وغيرها من الوسائط، وتشمل إخفاء معلومات التعريف الشخصية (PII)، واكتشاف الكراهية والإساءة واللغة النابية (HAP)، وتصفية الجودة، والكشف عن اللغة، وتقييم مستوى الثقة. يمكن للمطورين تصميم مسار بيانات واحد لمعالجة أنواع ملفات متنوعة على نطاق واسع - دون الحاجة إلى كتابة أو صيانة كود مخصص. تمامًا مثل السحب والإفلات في مسار ELT للبيانات المنظمة، يقدِّم watsonx.data integration نفس تجربة الاستخدام البديهية منخفضة الكود/دون كود للبيانات غير المنظمة، مع توفير حزمة تطوير برمجيات (SDK) كاملة الوظائف بلغة Python لأولئك الذين يفضلون العمل بطريقة برمجية أكثر.
بالإضافة إلى ذلك، تسمح المشغِّلات الجاهزة للتضمين والتقسيم والتحويل إلى متجهات للمستخدمين بتحويل المستندات غير المنسقة إلى تمثيلات منظمة ومحسَّنة للاستخدام في مراحل الذكاء الاصطناعي اللاحقة. تقوم هذه المشغِّلات بتحويل المحتوى غير المنظم تلقائيًا إلى متجهات ذات معنى دلالي، ما يُتيح حالات استخدام مثل التوليد المعزز بالاسترجاع (RAG)، وتصنيف المستندات، والبحث الذكي - وكل ذلك دون الحاجة إلى خبرة متقدمة في التعلم الآلي (ML).
تم تصميم هذا الدعم لتكامل البيانات غير المنظمة لمعالجة محتوى معقد وغير منظم بحجم بيتابايتات بكفاءة عالية. يتم ضغط المستندات التي تتجاوز 10 ميجابايت -عبر الآلاف من الملفات- إلى صيغة موحَّدة عالية الأداء، ما يُتيح معالجة سريعة وإعادة معالجة فعَّالة. تم تصميم هذه البنية خصيصًا لتلبية متطلبات البيانات غير المنظمة على مستوى المؤسسة.
يدعم المسار هياكل البيانات ذاتية التحديث. عندما يتم تحديث المستند المصدر -على سبيل المثال، "المستند أ"- إلى إصدار جديد، يتم التقاط التغييرات فقط (delta) ونقلها بسلاسة إلى جميع المراحل اللاحقة، بما في ذلك قاعدة بيانات المتجهات. ويضمن هذا أن تظل آلاف المسارات على نطاق واسع محدَّثة دون الحاجة إلى إعادة المعالجة الكاملة.
دعم أصلي لقوائم التحكم في الوصول (ACLs)، لضمان الحفاظ على أذونات المستند على مستوى كل مستند طوال مسار البيانات. وهذا يعني أن المستخدمين يصلون فقط إلى البيانات المصرح لهم بالاطِّلاع عليها - وهو أمر حساس للحفاظ على الأمان والامتثال والثقة مع تدفق البيانات غير المنظمة عبر الفرق والتطبيقات.
في النهاية، لا يمكن لأي مؤسسة بمفردها معالجة المشكلات المذكورة دون تعاون. يستند دعم watsonx.data integration لميزة UDI إلى بنية تحتية مرنة قائمة على أدوات حديثة مفتوحة المصدر. وفيما يلي العناصر التقنية الأساسية التي تشكِّل هذا الأساس.
تم تطوير دعم UDI في watsonx.data integration استنادًا إلى خبرة IBM نفسها في بناء عائلة نماذج الأساس Granite. كشفت عملية معالجة وإعداد 12 تريليون رمز تم استخدامها لتدريب Granite عن فجوات حرجة في أدوات البيانات غير المنظمة الموجودة. استجابةً لذلك، أنشأت IBM Research كلًّا من Data Prep Kit (DPK) وdata and Model Factory (DMF) - وهي أطر عمل معيارية توفِّر مشغِّلي تنظيف أقوياء عبر الوسائط مثل النص والرمز واللغات والصور. هذه المكونات المثبتة عمليًا، والمضمَّنة الآن في watsonx.data integration، تم تصميمها لتلبية حالات الاستخدام عالية الإنتاجية وعلى مستوى الإنتاج. اليوم، تم إصدار DPK كمصدر مفتوح عبر Linux Foundation، ضمن جهود IBM المستمرة في تمكين الوصول إلى أدوات متقدمة للبيانات غير المنظمة.
يتضمن دعم watsonx.data integration لميزة UDI أيضًا Watson Document Understanding وDocling، وهي مبادرة مفتوحة المصدر من IBM تضم أكثر من 30 ألف نجمة على GitHub، لتقديم تحليل متطور للمستندات واستخراج الكيانات. تتفوق هذه التقنيات في مهام الاستخراج المعقدة -بما في ذلك استخراج الجدول- بسرعة ودقة رائدة في الصناعة.
سواء أكنت تفضِّل خيارات مفتوحة المصدر مثل Milvus أو قواعد بيانات المتجهات المُدارة، فإن ميزة UDI في watsonx.data integration توفِّر خيارات الدعم. يتم تضمين مسارات التحويل إلى متجهات بشكل أصلي في النظام الأساسي، ما يُتيح النشر السريع لحل التخزين المفضل لديك لأعباء عمل التوليد المعزز بالاسترجاع والبحث الدلالي.
يُجري IBM watsonx.data integration حاليًا تكاملات تجريبية مع Langchain وأطر عمل التنسيق مفتوحة المصدر الشهيرة الأخرى - حيث يُضيف موجة حقيقية من الابتكار القائم على المجتمع إلى المنصة. تُتيح هذه التكاملات التنسيق الكامل للوظائف التي تم إنشاؤها أو الاستفادة منها عبر Langchain مباشرةً داخل مسارات watsonx.data integration الأصلية، مع الحفاظ على الحوكمة والأمان وقابلية التوسع على مستوى المؤسسة اللازمين للاستخدام في الإنتاج.
مع IBM watsonx.data integration، يمكن للعملاء إطلاق العنان للإمكانات الكاملة للبيانات غير المنظمة من خلال مزيج قوي من الابتكار مفتوح المصدر والتقنيات الخاصة للمؤسسات. بدءًا من توليد المحتوى المخصص إلى تجميع الفواتير واتخاذ القرارات الذاتية، تعمل UDI على تحويل المحتوى غير المنسق إلى رؤى جاهزة للذكاء الاصطناعي - وهي متاحة الآن كجزء من IBM watsonx.data integration.
ما يميز هذا العرض هو قدرته على توحيد البيانات المنظمة وغير المنظمة في منصة واحدة - ما يؤدي إلى تبسيط بناء مسارات البيانات وتقليل تشتت الأدوات، وبالتالي تسريع تحقيق النتائج. بغض النظر عن حالة الاستخدام، يُعَد watsonx.data integration هو الأساس لتحقيق قيمة الأعمال من جميع بياناتك.