التجذير والتقطيع اللغوي هما تقنيتان للمعالجة المسبقة للنص، حيث تقللان من متغيرات الكلمات إلى شكل أساسي واحد.
التجذير والتقطيع اللغوي هما تقنيتان للمعالجة المسبقة للنص في معالجة اللغة الطبيعية (NLP)، وعلى وجه التحديد، فإنهما تقلصان الأشكال المصرفة للكلمات عبر مجموعة بيانات نصية إلى كلمة جذرية واحدة مشتركة أو إلى شكل الكلمة في القاموس، ويعرف هذا أيضًا باسم "كلمة الأساس" في اللغويات الحاسوبية.1
يُعد التجذيع والتجريد مفيدين بشكل خاص في أنظمة استرجاع المعلومات مثل محركات البحث حيث يتسنى للمستخدمين الاستعلام باستخدام كلمة واحدة (مثل كلمة تأمَّل) ولكنهم يتوقعون ظهور نتائج تتضمن أي شكل من الأشكال الصرفية للكلمة (مثل يتأمل، التأمل، وما إلى ذلك). كما يهدف التجذيع والتجريد إلى تحسين عملية معالجة النصوص في خوارزميات التعلم الآلي.
يناقش الباحثون ما إذا كان الذكاء الاصطناعي قادرًا على استيعاب معنى الكلام، وقد امتد هذا النقاش إلى اللغويات الحاسوبية. هل تقتصر إمكانات روبوتات المحادثة ونماذج التعلم العميق على معالجة الصيغ اللغوية فقط، أم يمكنها فهم الدلالات كذلك؟2 ومهما كان رأي المرء في هذه المسألة، فلا ينفي ذلك حقيقة أن نماذج التعلم الآلي بحاجة إلى التدريب حتى تتمكن من التعرف على الكلمات المختلفة كمشتقات صرفية من كلمة واحدة. بل حتى تعالج الكلمات بناءً على الشكل الصرفي، وليس الدلالي. ومن خلال إرجاع مشتقات الكلمات إلى أصل واحد للكلمة، يساعد التجذيع والتجريد أنظمة استرجاع المعلومات ونماذج التعلم الآلي على جمع الكلمات المرتبطة من الناحية الصرفية.
يساعد التجذيع والتجريد، في الكثير من مهام استخراج النصوص التي تشمل تصنيف النصوص، والتجميع، والفهرسة، وغير ذلك الكثير، على تحسين الدقة عن طريق تقليص أبعاد خوارزميات التعلم الآلي وتجميع الكلمات المرتبطة من الناحية الصرفية. وبدوره، يؤدي تقليل أبعاد الخوارزميات إلى تعزيز صحة ودقة النماذج الإحصائية في معالجة اللغة الطبيعية، مثل نماذج الموضوعات ونماذج متجهات الكلمات.3
يُعد التجذيع والتجريد إحدى مراحل عملية استخراج النصوص التي تحول البيانات النصية غير المنسقة إلى تنسيق منظم من أجل إجراء المعالجة الآلية. يحذف كل من التجذيع والتجريد جميع الإضافات من الأشكال الصرفية للكلمات، تاركين أصل الكلمة فقط.4 وتعمل هذه العمليات على إزالة الأحرف من بداية رموز الكلمات ونهايتها. ثم تخضع الجذور الناتجة، أو أصول الكلمات، إلى المزيد من عمليات المعالجة. وبعيدًا عن هذا التشابه الأساسي بينهما، توجد أوجه اختلاف رئيسية بين التجذيع والتجريد في كيفية إرجاعهما للأشكال المختلفة للكلمة إلى أصل واحد مشترك.
تختلف خوارزميات التجذير على نطاق واسع على الرغم من أنها تشترك في بعض أنماط التشغيل العامة، حيث تقوم خوارزميات التجذير بإزالة لواحق الكلمات عن طريق تشغيل الرموز المميزة للكلمات المدخلة مقابل قائمة محددة مسبقًا من اللواحق الشائعة، وتزيل خوارزميات التجذير بعد ذلك أي سلاسل أحرف لاحقة يُعثر عليها في الكلمة، إذا لم تتحدَ الكلمة أي قواعد أو شروط مرتبطة بتلك اللاحقة، فتقوم بعض خوارزميات التجذير (مثل Lovins stemmer) بتمرير الأجزاء التي ردت إلى أصلها عبر مجموعة إضافية من القواعد لتصحيح الجذور المشوهة.
الخوارزمية الأكثر استخدامًا هي خوارزمية Porter stemming، ونسختها المحدثة هي Snowball stemmer. ولفهم التجذير بشكل أفضل، يمكننا تمرير المقطع التالي من مسرحية هاملت لشكسبير عبر أداة Snowball للتجذير: "There is nothing either good or bad but thinking makes it so" (لا شيء طيب أو سيئ، لكن التفكير هو الذي يجعله كذلك).
تحتوي مجموعة أدوات اللغة الطبيعية Python (NLTK) على وظائف مضمنة لأداتَي التجذير Snowball وPorter، وبعد تجذير الاقتباس من هاملت باستخدام NLTK، يمكننا تمرير النص المرمز من خلال أداة التجذير Snowball باستخدام هذا الرمز:
from nltk.stem.snowball import SnowballStemmer from nltk.tokenize import word_tokenize stemmer = SnowballStemmer("english", True) text = "There is nothing either good or bad but thinking makes it so." words = word_tokenize(text) stemmed_words = [stemmer.stem(word) for word in words] print("Original:", text) print("Tokenized:", words) print("Stemmed:", stemmed_words)
مخرجات الرمز:
الاقتباس الأصلي: There is nothing either good or bad but thinking makes it so. الاقتباس المُرمَّز: ['There', 'is', 'nothing', 'either', 'good', 'or', 'bad', 'but', 'thinking', 'makes', 'it', 'so', '.'] Stemmed: ['there', 'is', 'noth', 'either', 'good', 'or', 'bad', 'but', 'think', 'make', 'it', 'so', '.']
تقوم خوارزميات التجذيع Snowball وPorter على أسلوب أكثر رياضية في إزالة اللواحق مقارنةً بخوازميات التجذيع الأخرى. ويكفي القول بأن الخوارزمية تُخضع كل رموز الكلمات إلى قائمة من القواعد التي تحدد اللواحق المطلوب إزالتها وفقًا لعدد مجموعات الحروف المتحركة والساكنة في الرمز الواحد.5 ومن المعلوم أنه نظرًا إلى أن اللغة الإنجليزية تتبع قواعد لغوية عامة وليست مطلقة، فإن المعيار المنهجي لخوارزمية التجذيع يمكن أن ينتج عنه أخطاء، مثل noth.
تزيل أداة التجذير -ing، حيث إنها نهاية شائعة تدل على زمن الحاضر المتقدم. ومع ذلك، تتسبب إزالة -ing من اقتباس هاملت إلى إنتاج الجذر الخاطئ noth، ويمكن لذلك أن يمنع التحليل اللغوي اللاحق من ربط كلمة nothing بالأسماء المشابهة لها، مثل anything وsomething، وبالإضافة إلى ذلك، تترك أداة التجذير الفعل is المنتظم من دون أي تغيير، وبالمثل، تترك أداة التجذير Snowball تصريفات أخرى للفعل to be مثل was وare من دون تجذير، ويمكن لهذا أن يمنع النماذج من ربط تصريفات الأفعال غير المنتظمة لفعل ما بشكل صحيح.
وبشكل عام، يُعرّف التجذيع اصطلاحًا على أنه عملية تجريد الكلمات من الإضافات للوصول إلى أصول الكلمات، ويُعرّف التجريد على أنه عملية أوسع تُرجع المشتقات الصرفية إلى أصل الكلمة المدون في المعجم.6 ويكمن الفرق الفعلي بين التجذيع والتجريد في أنه في حين أن التجذيع يزيل فقط اللواحق المشتركة من نهاية رموز الكلمات، فإن التجريد يضمن أن تكون الكلمة الناتجة هي شكل طبيعي مستخدم للكلمة (مثل المادة المعجمية) يمكن العثور عليه في المعجم.7
ونظرًا لأن التقطيع اللغوي يهدف إلى إخراج أشكال أساسية من القاموس، فإنه يتطلب تحليلاً مورفولوجيًا أكثر فعالية من التجذير. يُعد تصنيف أجزاء الكلام (POS tagging) خطوة ضرورية في التقطيع اللغوي، ويقوم تصنيف أجزاء الكلام بشكل أساسي بتعيين علامات لكل كلمة لتدل على وظيفتها النحوية في الجملة. يوفّر Python NLTK دالة لخوارزمية "Word Net Lemmatization"، والتي يمكننا من خلالها إجراء التقطيع اللغوي على فقرة هاملت:
from nltk.stem import WordNetLemmatizer from nltk.corpus import wordnet from nltk import word_tokenize, pos_tag def get_wordnet_pos(tag): if tag.startswith('J'): return wordnet.ADJ elif tag.startswith('V'): return wordnet.VERB elif tag.startswith('N'): return wordnet.NOUN elif tag.startswith('R'): return wordnet.ADV else: return wordnet.NOUN def lemmatize_passage(text): words = word_tokenize(text) pos_tags = pos_tag(words) lemmatizer = WordNetLemmatizer() lemmatized_words = [lemmatizer.lemmatize(word, get_wordnet_pos(tag)) for word, tag in pos_tags] lemmatized_sentence = ' '.join(lemmatized_words) return lemmatized_sentence text = "There is nothing either good or bad but thinking makes it so." result = lemmatize_passage(text) print("Original:", text) print("Tokenized:", word_tokenize(text)) print("Lemmatized:", result)
يُرجع الرمز الآتي:
الاقتباس الأصلي: There is nothing either good or bad but thinking makes it so. الاقتباس المرمز:['There', 'is', 'nothing', 'either', 'good', 'or', 'bad', 'but', 'thinking', 'makes', 'it', 'so', '.'] الاقتباس الخاضع للتقطيع اللغوي: There be nothing either good or bad but think make it so .
يقلل WordNetLemmatizer، مثل أداة التجذير Snowball، من تصريفات الأفعال إلى الأشكال الأساسية—مثل تغيير thinking إلى think، وmakes إلى make. ولكن على عكس خوارزمية التجذير Snowball، فإن أداة التقطيع اللغوي تحدد nothing كاسم، وتترك نهايته، وهي -ing كما هو مطلوب، لكي تنتهي الكلمة من دون تغيير، بينما يغير الفعل is بشكل إضافي إلى شكله الأساسي be وبهذه الطريقة، تخلط أداة التقطيع اللغوي بشكل أكثر ملاءمة بين أشكال الأفعال غير المنتظمة.
يدعم كل من التجذيع والتجريد بشكل أساسي عملية تنظيم البيانات النصية باللغة الإنجليزية. كما تدعم تقنيتي تنظيم النصوص العديد من اللغات الأخرى التي تكتب بالحروف اللاتينية، مثل الفرنسية والألمانية والإسبانية. أما اللغات الأخرى، مثل اللغة الروسية، فهي مدعومة أكثر في خوارزمية التجذيع Snowball. يُعد تطوير خوارزميات التجذيع والتجريد بحيث تدعم اللغات الأخرى، ولا سيما اللغة العربية، مجالاً حديثًا وطائلاً من مجالات البحث. وتشكل اللغة العربية على وجه الخصوص تحديًا بسبب الصيغ الصرفية المركبة والاختلافات الإملائية والغموض اللغوي بالإضافة إلى خصائص أخرى.8 وإجمالاً، تثير هذه العناصر إشكالية في الطريقة المنهجية لتحديد أصول الكلمات من المشتقات الصرفية، وذلك عند مقارنتها بالكلمات الإنجليزية على الأقل.
وإلى جانب هذه الصعوبات العامة، فإن لكل من التجذيع والتجريد مساوئ خاصة. كما هو موضح في مثال Hamlet، فإن التجذيع هو عملية استدلالية نسبيًا قائمة على القواعد لإزالة الحروف. ولكن الإفراط في التجذيع أو إنقاصه هما خطآن شائعان ينتجان في أثناء عملية التجذيع. الإفراط في التجذيع يحدث عند إرجاع كلمتين مختلفتين دلاليًا إلى الأصل نفسه (على سبيل المثال، كلمة "news" بمعنى الأخبار إلى كلمة "new" بمعنى جديد)؛ والنقص في التجذيع يحدث عند عدم إرجاع كلمتين مرتبطتين دلاليًا إلى الأصل نفسه (على سبيل المثال، knavish وknave إلى knavish وknave على التوالي).9 بالإضافة إلى ذلك، فإن التجذيع يجرد الكلمات من اللواحق فقط ومن ثَمَّ لا ينطبق على أشكال الأفعال الشاذة أو البادئات كما يفعل التجريد. وبالطبع، يُعد التجذيع عملية بسيطة ومباشرة إلى حد ما من حيث التنفيذ، بينما يمكن أن يكون التجريد أكثر تكلفة من الناحية الحسابية ويستغرق وقتًا طويلاً حسب حجم البيانات التي تُجرى معالجتها.
يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.
تسريع قيمة الأعمال باستخدام مجموعة قوية ومرنة من مكتبات وخدمات وتطبيقات الذكاء الاصطناعي.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.
IBM® ™Granite هي مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوقة وذات الأداء العالي والتي صُمِمَت خصيصًا للأعمال وجرى الارتقاء بها على النحو الأمثل لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية وضوابط الحماية.
اكتشف كيف يمكن أن تساعدك معالجة اللغة الطبيعية على التحدث بشكل أكثر طبيعية مع أجهزة الكمبيوتر.
لقد قمنا باستطلاع آراء 2000 مؤسسة حول مبادرات الذكاء الاصطناعي لديها لمعرفة ما ينجح وما لا ينجح وكيف يمكنك المضي قدمًا.
استكشف الموقع الإلكتروني لمطوري IBM للوصول إلى المدونات والمقالات والنشرات الإخبارية وتعرف على المزيد عن الذكاء الاصطناعي القابل للتضمين من IBM.
1 Nitin Indurkhya and Fred Damerau، دليل معالجة اللغة الطبيعية، الطبعة الثانية، مطبعة CRC، عام 2010.
2 Zhaofeng Wu وLinlu Qiu وAlexis Ross وEkin Akyürek وBoyuan Chen وBailin Wang وNajoung Kim وJacob Andreas وYoon Kim، "الاستنتاج أم الترديد؟ استكشاف إمكانات النماذج اللغوية وحدودها من خلال المهام الافتراضية"، 2023، https://arxiv.org/abs/2307.02477. Gati Aher وRosa Arriaga وAdam Kalai، "استخدام النماذج اللغوية الكبرى لمحاكاة العديد من البشر وتكرار الدراسات الإنسانية"، وقائع المؤتمر الدولي الأربعين حول التعلم الآلي، مجلة PMLR، مجلد. 202، عام 2023، ص. 337-371، https://proceedings.mlr.press/v202/aher23a.html. Emily Bender وAlexander Koller، "خطوات نحو فهم اللغة الطبيعية: حول المعنى والصيغة والفهم في عصر البيانات"، وقائع الاجتماع السنوي الثامن والخمسين لجمعية اللغويات الحاسوبية (ACL)، عام 2020، ص. 5185-5198، 10.18653/v1 / 2020.acl-main.463.
3 Gary Miner وDursun Delen وJohn Elder وAndrew Fast وThomas Hill وRobert A. Nisbet، الاستخراج العملي للنصوص والتحليل الإحصائي لتطبيقات البيانات النصية غير المنسقة"، مطبعة Academic Press، عام 2012.
4 Christopher Manning و Hinrich Schütze، أسس المعالجة الإحصائية للغة الطبيعية، مطبعة MIT Press، عام 1999.
5 Martin Porter، "خوارزمية إزالة اللواحق"، برنامج: المكتبة الإلكترونية وأنظمة المعلومات، المجلد 14، العدد 3، عام 1980، ص. 130-137، https://www.emerald.com/insight/content/doi/10.1108/eb046814/full/html. Martin Porter، "Snowball: لغة خوارزميات التجذيع"، عام 2001، https://snowballstem.org/texts/introduction.html.
6 Nitin Indurkhya and Fred Damerau، دليل معالجة اللغة الطبيعية، الطبعة الثانية، مطبعة CRC، عام 2010. Christopher Manning وHinrich Schütze، أسس المعالجة الإحصائية للغة الطبيعية، مطبعة MIT Press، عام 1999.
7 Janez Brank وDunja Mladenic وMarko Grobelnik، "تصميم مزايا استخراج النصوص"، موسوعة التعلم الآلي واستخراج البيانات،Springer، عام 2017.
8 Abed Alhakim Freihat وGábor Bella وMourad Abbas وHamdy Mubarak وFausto Giunchiglia، "ALP: المسار اللغويّ العربيّ" ، تحليل وتطبيق اللغة الطبيعية ومعالجة الكلام، عام 2022 ، ص.67-99، https://link.springer.com/chapter/10.1007/978-3-031-11035-1_4. Abdul Jabbar وSajid Iqbal وManzoor Ilahi Tamimy وShafiq Hussain وAdnan Akhunzada، "التقييم التجريبي ودراسة خوارزميات تجذيع النصوص"، استعراض الذكاء الاصطناعي، مجلد 53، عام 2020، ص. 5559-5588، https://link.springer.com/article/10.1007/s10462-020-09828-3. Abed Alhakim Freihat وMourad Abbas وG'abor Bella وFausto Giunchiglia، "نحو حل أمثل للتجريد باللغة العربية"، Procedia Computer Science، مجلد 142، عام 2018، ص. 132-140، https://www.sciencedirect.com/science/article/pii/S1877050918321707?via%3Dihub.
9 Chris Paice، "التجذيع"، موسوعة أنظمة قواعد البيانات، Springer، عام 2020.