البيانات هي الغاز الذي يجعل محركات الذكاء الاصطناعي تعمل. والعديد من الشركات لا تستفيد استفادة كاملة من كنز البيانات غير المنظمة الموجودة في متناول يدها لأنها غير متأكدة من كيفية ملء الخزان.
لهذا السبب تجذب الشركات، التي تمتلك الأدوات اللازمة لمعالجة البيانات غير المنظمة، انتباه المستثمرين. في الشهر الماضي فقط، قامت Salesforce بعملية استحواذ كبيرة لتغذية منصتها Agentforce، ما يعد استثمارًا حديثًا ضمن عدة استثمارات في شركات إدارة البيانات غير المنظ
يوضح Edward Calvesbert، نائب رئيس إدارة المنتجات في IBM watsonx وأحد خبراء البيانات لدى IBM، أن "الذكاء الاصطناعي التوليدي قد رفع من أهمية البيانات غير المنظمة، وخاصة الوثائق، في عمليات التوليد المعزّز بالاسترجاع وكذلك والضبط الدقيق لنماذج اللغات الكبيرة والتحليلات التقليدية الخاصة بالتعلم الآلي وذكاء الأعمال وهندسة البيانات". "الجزء الأكبر من البيانات المولّدة يومياً يفتقر للتنظيم، وهو ما يشكل أعظم فرصة ناشئة".
أردنا معرفة المزيد حول ما تخبئه البيانات غير منظمة للذكاء الاصطناعي. لذا جلسنا مع Calvesbert وDave Donahue، رئيس الاستراتيجية في شركة علم البيانات Unstructured، التي اختتمت جولة استثمارية حصلت منها على 40 مليون دولار أمريكي مع IBM وNvidia وDatabricks في مارس، من أجل معرفة آرائهم حول أهمية البيانات غير المنظمة، وإلى أين تتجه لاحقًا.
Edward Calvesbert، IBM: البيانات غير المنظمة، واللغة، والصور، وما إلى ذلك، تمثل البيانات "الجديدة" التي تعتمد عليها نماذج الأساس لتفسيرها وفهمها، ولذلك أصبحت هي محور الاهتمام الحالي. على غرار البيانات المنظمة تماماً، تتطلب البيانات غير المنظمة الخضوع للإدارة، والتصنيف، وتقييم الجودة، والفلترة لإزالة المحتوى الشخصي وغير المرغوب فيه، بالإضافة إلى إزالة التكرار، وبناءً على ذلك، تعتمد الإستراتيجية الناجحة على تطبيق نفس قدرات حوكمة البيانات على البيانات غير المنظمة.
Dave Donahue، يعمل لدى Unstructured: البيانات غير المنظمة ليست أكثر قيمة بطبيعتها من البيانات المنظمة، لكن بشكل عام، تنتج المجموعة أربعة أضعاف كمية البيانات غير المنظمة مقارنة بالبيانات المنظمة. لذا فالسؤال الذي يطرح نفسه هو، هل تريد استخدام مزيد من بياناتك، وخاصة البيانات غير المنظمة التي يولدها الإنسان، وذلك عند تنفيذ الذكاء الاصطناعي؟ يجب أن تكون الإجابة "نعم" مدوية.
Calvesbert: "جيدة بما فيه الكفاية" هو هدف متحرك ويختلف باختلاف حالة الاستخدام. تتطلب القاعدة المعرفية للتوليد المعزّز بالاسترجاع لتحسين البحث الدلالي والأسئلة والأجوبة والتلخيص لوكلاء دعم العملاء أن تكون قاعدة المعرفة الخاصة بالوثائق كاملة ودقيقة وحديثة. البيانات اللازمة لضبط النموذج تتطلب مجموعة من أمثلة منسقة على يد أشخاص من أجل أزواج الموجِّه/الاستجابة، فالمستندات التي تتم معالجتها ضمن جداول أو قواعد بيانات بيانية لدفع حالات الاستخدام التحليلي تتطلب استخلاصًا فعالًا للكيانات أو القيم. في جميع الحالات تقريبًا، يجب تصنيف البيانات وفلترتها وحوكمتها في سياق دورة حياة حالة الاستخدام.
Donahue: على مستوى المؤسسة أو الشركة، تتسم البيانات "الجيدة" بكونها نظيفة، ومهيكلة، ومُثرّاة. ويجب أن يحد مسار المعالجة المسبقة هذا من فقدان المعلومات بين المحتوى الأساسي والشكل النهائي المعدّ للاستخدام بواسطة النماذج اللغوية الكبيرة. تُمكّن Unstructured الشركات من تحويل بياناتها غير المنظمة إلى تنسيق موحد، بغض النظر عن نوع الملف، وإثرائها ببيانات وصفية إضافية. وهذا يتيح للمجموعة إمكانية التخفيف من التحديات الثلاثة الرئيسية التي تواجهها عند استخدام نماذج اللغة الكبيرة: وهي كونها حبيسة اللحظة الزمنية، ولديها ميل لتوليد معلومات غير صحيحة، وتفتقر إلى المعرفة المباشرة بمجموعة البيانات المحددة.
Calvesbert: بدأ أحد كبار عملاء الاتصالات الذين تعاملنا معهم باستخدام قاعدة معرفة داخلية خصيصاً لوكلاء دعم العملاء. وقد أدى ذلك إلى تقليص زمن الاستجابة المطلوبة للرد على العملاء وتحسين دقة الردود. انتشر الاستخدام بشكل طبيعي وسريع، كالنار في الهشيم، ضمن مركز الاتصال، وهذا دفع الشركة إلى التراجع والبدء في وضع إطار للحوكمة وتقييم أداء الأسعار. على الصعيد الداخلي، نفذنا حالة استخدام للأتمتة؛ حيث تم تضمين الإرشادات والأمثلة الخاصة بعلامة IBM التجارية في عملية توليد محتوى تسويقي جديد وتنسيقه، لتحقيق اتساق في الجودة والنبرة.
Donahue: نحن نعمل مع شركة سلع استهلاكية عالمية لمساعدتها على تطوير أفكار منتجات جديدة. قد تسأل، "ما علاقة ذلك بالبيانات غير المنظمة"؟ في السابق، كان الأمر يستغرق شهورًا من فرق التسويق والمنتجات لتحليل جبال من بيانات المبيعات، ومعلومات التعليقات المنتج، والمعلومات الديموغرافية لتوليد أفكار أو مفاهيم جديدة يمكنهم اختبارها مع المستخدمين النهائيين في تلك الأسواق المحددة. ماذا لو تمكنا من المساعدة في تقليص فترة هذه العملية من أشهر إلى ساعات؟ ماذا لو تمكنا من إنشاء أفكار جديدة لمنتجات تستند إلى البيانات التي يمكن للفرق اختبارها بسرعة؟
هذه هي قوة تسخير بياناتك غير المنظمة لإنشاء قيمة تجارية. والآن، تستفيد شركة CPG هذه من بياناتها عبر العديد من علاماتها التجارية لتطوير واختبار أفكار منتجات جديدة لطرحها في السوق.
Calvesbert: كل شركة لديها مستندات، فكر فيما تقدمه للموظفين الجدد لدمجهم، وهذا يكفي للبدء في التوليد المعزّز بالاسترجاع والبحث الدلالي.
Donahue %80 من بيانات الشركة غير منظمة، سواء كانت رسائل بريد إلكتروني أو مذكرات أو منصات مراسلة داخلية (مثل Slack أو Microsoft Teams) أو عروض تقديمية للأعمال. السؤال المطروح هو ماذا تريد أن تفعل بهذه البيانات؟ هل تريد إنشاء كفاءات للمهندسين الذين يقومون حاليًا بعمل مماثل لتنظيف البيانات؟ تطوير أفكار منتجات جديدة بناءً على بيانات المبيعات والتسويق؟ هناك إمكانيات وفرص لا حصر لها للذكاء الاصطناعي. ليس عليك سوى تحديد هدف، وتحديد البيانات المطلوبة، ثم البدء على نطاق صغير.
Calvesbert: أعتقد أن هياكل مستودعات البيانات وصيغ الجداول المفتوحة، وتحديدًا Iceberg، قد أصبحت الاتجاه السائد والنمط المهيمن لإدارة البيانات في سياق أحمال التشغيل/البيانات الجديدة. تم إدراج هذه القدرات بشكل مدمج في عدد كبير من قواعد البيانات سواء كانت تشغيلية أو تحليلية، وهذا يُمكّن من دمج أحمال التشغيل الناتجة عن الذكاء الاصطناعي التوليدي في التطبيقات القائمة. بدأنا نرى الصناعة تدرك أن التوليد المعزّز بالاسترجاع وحده لن يكون كافيًا لبعض حالات الاستخدام المؤسسية التي تتطلب سياقًا إضافيًا بناء على علاقات غير واضحة (GraphRAG) ودقة محسنة من سجلات المعاملات (SQL-RAG). يدرك العملاء أيضًا أن تنفيذ نموذج تفويض المستخدم يحترم ضوابط الوصول الموجودة في أنظمة إدارة المحتوى المؤسسي يعد تحديًا حساسًا يجب التغلب عليه لتوسيع الذكاء الاصطناعي التوليدي عبر المؤسسة.
Donahue: بدأنا نرى فرق علم البيانات والتعلم الآلي تعمل بشكل أوثق مع فرق هندسة البيانات. ظهرت فرق هندسة البيانات بالتزامن مع نمو مستودعات البيانات وتطبيقات ذكاء الأعمال على مدى العقد الفائت، وعادةً ما كانت تعمل في بيئة SQL وقواعد البيانات المنظمة، مع التركيز على عمليات التحليلات المعدة خصيصاً لمحللي البيانات والإدارة العليا. ومع ميل المؤسسات نحو استخدام النماذج اللغوية الكبيرة (LLM)، ازدادت الرغبة في الحصول على كميات كبيرة من البيانات المعالجة مسبقًا. ومع ذلك، يميل هؤلاء المستهلكون إلى العمل في عالم Python، وقاعدة بيانات المتجهات، وواجهات المستخدم السريعة والقابلة للاستبدال. وبمرور الوقت، نتوقع أن تتحمل فرق هندسة البيانات الناضجة بشكل متزايد مسؤولية تزويد فرق الذكاء الاصطناعي التوليدي ببيانات جاهزة للمؤسسات.
Calvesbert: أعتقد أن العملاء يتطلعون إلى تبسيط ممتلكاتهم من البيانات والتكاليف والمخاطر المرتبطة بها. وتحقيقًا لهذه الغاية، ستظل قواعد البيانات متعددة النماذج ومعماريات مستودعات البيانات متعددة المحركات منافساً ناجحاً لأحمال التشغيل مقابل قواعد البيانات المعزولة، في ظل سعي العملاء للتوحيد على عدد أقل من منصات البيانات. نماذج التحويل من النص إلى SQL أصبحت جيدة جدًا، ما سيقلل بشكل كبير من العقبة أمام العمل مع البيانات في مجموعة واسعة من حالات الاستخدام تتجاوز ذكاء الأعمال.
وعلى نحو مماثل، سيؤدي انتشار الوكلاء إلى ضخ البيانات بكميات متزايدة وتنوع أكبر في عمليات سير العمل المؤتمتة. ستُحدث بعض عمليات سير العمل هذه ثورة في العديد من مهام العاملين في مجال المعرفة وستولد فرصاً جديدة ومحفزة. تخيل معالجة محادثة داخلية أو خارجية مع العملاء ثم تعيينها فورياً إلى المنتجات ذات الصلة في كتالوج، أو إلى سجل الفرص في نظام إدارة علاقات العملاء (CRM)، بما في ذلك التقييم التلقائي لمدى التقدم واحتمالية الإغلاق.
Donahue: على عكس مجموعة البيانات الحديثة، حيث أسست Snowflake وBigQuery وDatabricks "جاذبية البيانات" في مجال مستودعات البيانات، لم نفعل الشيء نفسه بعد للبيانات غير المنظمة. وبما أن البيانات غير المنظمة تفوق البيانات المنظمة من حيث الحجم بأربعة أضعاف وتتزايد أضعافاً مضاعفة كل عام، فإن المخاطر لا يمكن أن تكون أعلى بالنسبة للجيل القادم من حلول التخزين الخاصة بنماذج اللغات الكبيرة (LLMs). لا يوجد قرار حاسم حتى الآن بشأن أي توليفة من خيارات التخزين (المتجهية، أو الرسوم البيانية، أو القائمة على الكائنات، أو غيرها) سيكون لها الهيمنة، وأي من البائعين في كل فئة سيحقق الريادة، لكن من المرجح أن يتضح الفائزون خلال الأشهر الـ 18 إلى الـ 24 القادمة.