ما هو التنقيب في النص؟

ذَكر محترف يستخدم هاتفًا ذكيًا أثناء جلوسه بجانب مكتب كمبيوتر.

ما هو التنقيب في النص؟

استكشاف النصوص، المعروف أيضًا باستخراج البيانات النصية، هو عملية تهدف إلى تحويل النصوص غير المنظمة إلى شكل منظم يساعد على اكتشاف أنماط ذات مغزى واستخلاص رؤى جديدة. يمكن لهذه العملية أن تُستخدم لتحليل كميات هائلة من البيانات النصية بهدف تحديد المفاهيم الأساسية، والاتجاهات البارزة، والعلاقات الخفية بين العناصر النصية.

وباستخدام تقنيات تحليلية متقدمة مثل Naïve Bayes، وآلات المتجهات الداعمة (SVM)، وخوارزميات التعلم العميق الأخرى، تستطيع الشركات تحليل البيانات غير المنظمة واستكشاف العلاقات التي لا يمكن اكتشافها بسهولة بطرق التحليل التقليدية.

النصوص تُعد من أكثر أنواع البيانات انتشارًا في قواعد البيانات. استنادًا إلى قاعدة البيانات، يمكن تصنيف هذه البيانات على النحو التالي:

  • بيانات منظمة: بيانات يتم تنسيقها في جداول تحتوي على صفوف وأعمدة، مما يجعلها سهلة التخزين والمعالجة باستخدام خوارزميات التعلم الآلي. تشمل هذه البيانات المنظمة إدخالات مثل الأسماء والعناوين وأرقام الهواتف.

  • البيانات غير المنظمة: هذه البيانات لا تحتوي على تنسيق بيانات محدد مسبقًا. وتشمل النصوص المأخوذة من وسائل التواصل الاجتماعي، تقييمات المنتجات، أو حتى الوسائط متعددة الأنماط مثل ملفات الفيديو والصوت.

  • البيانات شبه المنظمة: هي مزيج بين البيانات المنظمة وغير المنظمة. على الرغم من أن لديها بعض التنظيم، لكنها لا تفي بمتطلبات قواعد البيانات العلائقية. ومن أمثلة البيانات شبه المنظمة ملفات XML وJSON وHTML.

نظرًا لأن ما يقرب من 80٪ من البيانات العالمية موجودة بتنسيق غير منظم، فإن التنقيب عن النصوص يعد ممارسة قيّمة للغاية داخل المنظمات. تتيح لنا أدوات استكشاف النصوص وتقنيات معالجة اللغة الطبيعية (NLP)، مثل استخراج المعلومات، تحويل المستندات غير المنظمة إلى بيانات منظمة يمكن تحليلها واستخلاص رؤى عالية الجودة. وهذا بدوره يحسّن من عملية اتخاذ القرار في المنظمات ويسهم في تحقيق نتائج أعمال أكثر كفاءة.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

استكشاف النصوص مقابل تحليل النصوص

على الرغم من أن مصطلحي "استكشاف النصوص" و"تحليل النصوص" يُستخدمان بالتبادل في المحادثات اليومية، إلا أن هناك فرقًا طفيفًا بينهما. يركز استكشاف النصوص على كشف الأنماط والاتجاهات المخفية في البيانات غير المنظمة باستخدام تقنيات التعلم الآلي والإحصائيات واللغويات. من خلال تحويل البيانات إلى تنسيق أكثر تنظيماً من خلال استكشاف النصوص وتحليلها، يمكن اكتشاف المزيد من الرؤى الكمية من خلال تحليلات النصوص. بعد ذلك، يمكن استخدام تقنيات تصوير البيانات لعرض النتائج بطريقة مرئية تتيح التواصل الفعال مع الجمهور.

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

تقنيات استكشاف النصوص

تتضمن عملية استكشاف النصوص العديد من الخطوات الأساسية التي تهدف إلى استخلاص المعلومات من بيانات نصية غير منظمة. قبل أن تتمكن من تطبيق تقنيات مختلفة لاستكشاف النصوص، يجب أن تبدأ بالمعالجة المسبقة للنص، وهي ممارسة تنظيف البيانات النصية وتحويلها إلى صيغ قابلة للاستخدام. تعد هذه الممارسة جانبًا أساسيًا من جوانب معالجة اللغة الطبيعية (NLP) وعادةً ما تتضمن استخدام تقنيات مثل تحديد اللغة، وتقسيم النصوص، ووسم أجزاء الكلام، وتقسيم النصوص إلى وحدات نحوية، وتحليل بناء الجملة لتنسيق البيانات بشكل مناسب للتحليل. بعد إتمام معالجة النصوص المسبقة، يمكن تطبيق خوارزميات استكشاف النصوص لاستخلاص رؤى مفيدة من البيانات. فيما يلي بعض تقنيات استكشاف النصوص الشائعة:

استرجاع المعلومات

تعمل تقنية استرجاع المعلومات (IR) على إعادة المعلومات أو المستندات ذات الصلة استنادا إلى مجموعة محددة مسبقا من الاستعلامات أو العبارات. تعتمد أنظمة استرجاع المعلومات على خوارزميات لتحليل سلوك المستخدمين وتحديد البيانات المطلوبة. من أشهر استخدامات تقنية استرجاع المعلومات أنظمة فهرسة المكتبات ومحركات البحث الشهيرة، مثل Google. من أبرز مهام تقنية استرجاع المعلومات:

  • تقسيم النصوص: هي عملية تحويل النصوص الطويلة إلى جمل وكلمات تسمى «رموز مميزة». ثم يتم استخدامها في نماذج مثل Bag of words، لتصنيف النصوص ومطابقة المستندات.

  • حذف البادئات واللواحق: وهي عملية إزالة البادئات واللواحق من الكلمات لاستخلاص الجذر الأساسي للكلمة. تعمل هذه التقنية على تحسين استرجاع المعلومات عن طريق تقليل حجم ملفات الفهرسة.

معالجة اللغة الطبيعية (NLP)

تطورت معالجة اللغة الطبيعية من علم اللغويات الحاسوبية، وتستفيد من مجالات متعددة مثل علوم الحاسب، والذكاء الاصطناعي، وعلم البيانات. تهدف هذه التقنيات إلى تمكين الحواسيب من فهم اللغة البشرية المكتوبة والشفهية. من خلال تحليل بنية الجملة والقواعد، تسمح المهام الفرعية لمعالجة اللغة الطبيعية (NLP) لأجهزة الكمبيوتر «بالقراءة». وفيما يلي أبرز المهام الفرعية لمعالجة اللغة الطبيعية:

  • التلخيص: توفر هذه التقنية ملخصًا مختصًرًا ومترابطًا لنصوص طويلة يبرز النقاط الرئيسية للمستند.

  • وسم أجزاء الكلام (PoS): تقوم هذه التقنية بوسم كل كلمة في المستند حسب دورها النحوي - (اسم، فعل، حرف، إلخ). تتيح هذه الخطوة التحليل الدلالي للنصوص غير المنظمة.

  • تصنيف النصوص: هذه المهمة، التي تُعرف أيضًا باسم تبويب النصوص، مسؤولة عن تحليل المستندات النصية وتصنيفها بناءً على مواضيع أو فئات محددة مسبقًا. وتُعدّ هذه المهمة الفرعية مفيدة بشكل خاص عند تصنيف المرادفات والمختصرات.

  • تحليل المشاعر: هذه المهمة تكتشف المشاعر الإيجابية أو السلبية من مصادر البيانات الداخلية أو الخارجية، مما يسمح لك بتتبع التغيرات في مواقف العملاء بمرور الوقت. تُستخدم هذه التقنية بشكل شائع لفهم تصورات العلامات التجارية، المنتجات، والخدمات. يمكن لهذه الرؤى أن تُساعد الشركات على تحسين تواصلها مع العملاء، وتحسين كفاءة العمليات، وتعزيز تجربة المستخدم.

استخراج المعلومات

يعرض استخراج المعلومات (IE) الأجزاء ذات الصلة من البيانات عند البحث في مستندات متنوعة. كما يركز على استخراج المعلومات المُنظمة من النصوص الحرة وتخزين الكيانات، والسمات، ومعلومات العلاقات في قاعدة بيانات. وفيما يلي أبرز المهام الفرعية لاستخراج المعلومات:

  • اختيار الميزات، أو عملية اختيار السمات، هي عملية اختيار الميزات (الأبعاد) المهمة التي تُساهم بشكل كبير في نتائج نموذج التحليلات التنبؤية.

  • استخراج الميزات هي عملية اختيار مجموعة فرعية من الميزات لتحسين دقة مهمة التصنيف. وتعتبر هذه العملية ذات أهمية خاصة لتقليل الأبعاد.

  • التعرف على الكيانات المُسماة (NER) وتُعرف أيضًا باسم تحديد الكيانات أو استخراج الكيانات، تهدف إلى العثور على كيانات محددة في النص وتصنيفها، مثل الأسماء أو المواقع. على سبيل المثال، يتم تصنيف "California" كموقع و"Mary" كاسم امرأة.

استخراج البيانات

التنقيب في البيانات هو عملية تحديد الأنماط واستخلاص رؤى مفيدة من مجموعات البيانات الضخمة. يُقيّم هذا النهج البيانات المُنظمة وغير المُنظمة لتحديد معلومات جديدة، ويُستخدم عادةً لتحليل سلوك المستهلكين في التسويق والمبيعات. يعد استكشاف النصوص في الأساس فرعًا من فروع من التنقيب في البيانات، حيث يركز على هيكلة البيانات غير المنظمة وتحليلها لاستخلاص رؤى جديدة. التقنيات المذكورة أعلاه تُعد أشكالًا من التنقيب في البيانات ولكنها تندرج ضمن نطاق تحليل البيانات النصية.

استخدامات استكشاف النصوص

ساهمت برمجيات تحليل النصوص في تغيير طريقة عمل العديد من الصناعات، مما سمح بتحسين تجارب المستخدمين واتخاذ قرارات تجارية أسرع وأكثر ذكاءً. فيما يلي بعض حالات الاستخدام:

خدمة العملاء: هناك العديد من الطرق التي نحصل من خلالها على التعليقات من مستخدمينا. عند دمج أدوات التحليلات وأنظمة التعليقات، مثل روبوت المحادثة، واستطلاعات العملاء، وصافي نقاط الترويج، والتقييمات عبر الإنترنت، وتذاكر الدعم، والملفات الشخصية على وسائل التواصل الاجتماعي، فإن ذلك يمكّن الشركات من تحسين تجربة عملائها بسرعة. يمكن أن يوفر استكشاف النصوص وتحليل المشاعر آلية للشركات لتحديد أولويات نقاط الضعف الرئيسية لعملائها، مما يُمكّنها من الاستجابة للقضايا العاجلة في الوقت الحقيقي وزيادة مستوى رضا العملاء.. اكتشف كيف يستخدم Verizon تحليلات النصوص في خدمة العملاء.

إدارة المخاطر: تُستخدم تقنيات استكشاف النصوص لتوفير رؤى حول اتجاهات الصناعة والأسواق المالية عن طريق مراقبة تغيّرات المشاعر واستخلاص المعلومات من تقارير المحللين والمقالات. تُعتبر هذه البيانات ذات قيمة للبنوك عند اتخاذ قرارات استثمارية واثقة في قطاعات مختلفة. اكتشف كيف يستخدم CIBC وEquBot تحليلات النصوص للتخفيف من المخاطر.

الصيانة: يوفر استكشاف النصوص صورة شاملة عن تشغيل ووظائف المنتجات والآلات. مع الوقت، يعمل استكشاف النصوص على أتمتة عملية اتخاذ القرارات من خلال الكشف عن الأنماط المرتبطة بالمشكلات وإجراءات الصيانة الوقائية والتفاعلية. يساعد تحليل النص الفنيين في تحديد الأسباب الجذرية للأعطال بسرعة.

الرعاية الصحية: تتزايد قيمة تقنيات استكشاف النصوص بالنسبة للباحثين في المجال الطبي الحيوي، لا سيما في مجال تجميع المعلومات. يمكن أن يكون التحليل اليدوي في الأبحاث الطبية مكلفاً ويستغرق وقتاً طويلاً. يوفر استكشاف النصوص استخراج المعلومات القيمة من الأبحاث الطبية بطريقة مؤتمتة.

تصفية البريد العشوائي: يُعد البريد العشوائي بوابة لاختراق الأنظمة عبر البرمجيات الخبيثة. يمكن أن يوفر استكشاف النصوص طريقة لتصفية واستبعاد رسائل البريد الإلكتروني هذه من صناديق البريد الوارد، مما يحسّن تجربة المستخدم الإجمالية ويقلل من مخاطر الهجمات الإلكترونية على المستخدمين النهائيين.

حلول ذات صلة
IBM watsonx Orchestrate

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate
أدوات معالجة اللغة الطبيعية وواجهات برمجة التطبيقات

تسريع قيمة الأعمال باستخدام مجموعة قوية ومرنة من مكتبات وخدمات وتطبيقات الذكاء الاصطناعي.

استكشف حلول معالجة اللغة الطبيعية
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate استكشف حلول معالجة اللغة الطبيعية