يتطلب حساب تشابه جيب التمام قياس جيب التمام للزاوية (ثيتا) بين متجهين غير صفريين في فضاء حاصل الضرب الداخلي. وينتج عن هذا القياس درجة تشابه جيب التمام. تتراوح قيم تشابه جيب التمام من -1 إلى 1:
فكّر في الأمر كمقارنة الأسهم: إذا كانت تُشير في الاتجاه نفسه، فهي متشابهة إلى حد كبير. أما الأسهم التي تكون بزوايا قائمة فهي غير مرتبطة، والأسهم التي تُشير في اتجاهات متعاكسة فهي غير متشابهة.
يُعَد هذا النهج الزاوي أساسًا للعديد من أنظمة التعلم الآلي (ML) ومعالجة اللغة الطبيعية (NLP) والذكاء الاصطناعي (AI). وتعتمد هذه التقنيات على التمثيلات المتجهة للبيانات، ما يعني أن البيانات تم تحويلها إلى شكل رقمي لالتقاط معناها وتشابهها مع البيانات الأخرى.
على سبيل المثال، قد يستخدم روبوت المحادثة تقنيات تضمين الكلمات لتحويل النص إلى شكل متجه، ونماذج التعلم العميق لفهم خوارزميات البحث عن النية والتشابه لاسترداد الاستجابة الأكثر صلة من قاعدة بيانات. يُتيح تشابه جيب التمام كل خطوة من هذه الخطوات.
سواء أكان الأمر يتعلق بالتنبؤ بالكلمة التالية في الجملة أو اقتراح مكان قريب لتناول الطعام، فإن العديد من الأنظمة التي تشكِّل حياتنا الرقمية تعتمد على قياس التشابه. تستخدم التقنيات مثل محركات التوصية والنماذج اللغوية الكبيرة (LLMs) تشابه جيب التمام؛ لتحديد المحتوى الأكثر صلة والاستجابات الأكثر "منطقية".
يتم اتخاذ هذه القرارات من خلال تحليل العلاقات بين نقاط البيانات في مجموعات البيانات ذات الأبعاد العالية أو المتفرقة. في تحليل النصوص الكلاسيكي، غالبًا ما يتم تحويل المستندات إلى تمثيلات رقمية باستخدام تقنيات مثل تردد المصطلح -تردد المستند العكسي (tf-idf)- وهو شكل متقدم من حقيبة الكلمات (BoW). بينما تسجِّل BoW عدد مرات ظهور المصطلح في المستند، تقوم tf-idf بتعديل هذه الدرجة بناءً على مدى شيوع أو ندرة الكلمة عبر مجموعة بيانات أكبر.
تستخدم الأنظمة الأكثر تقدمًا الشبكات العصبية لإنشاء تضمينات متجهات - تمثيلات رقمية لنقاط البيانات التي تعبِّر عن أنواع مختلفة من البيانات كمجموعة من الأرقام. على سبيل المثال، قد تظهر كلمات مثل "طبيب" و"ممرضة" بالقرب من بعضها في فضاء المتجه، ما يعني أن النموذج يراهما على أنهما مرتبطان. غالبًا ما تمر عمليات التضمين هذه بخطوات إضافية، مثل تحليل العناصر الأساسية (PCA)، لإجراء مقارنات واسعة النطاق بشكل أسرع وأكثر كفاءة.
في كلا النهجين، يقيس تشابه جيب التمام مدى تقارب المتجهات الناتجة، ما يساعد الأنظمة على تحديد الأنماط والعلاقات عبر مجموعات البيانات المعقدة. في معالجة اللغة الطبيعية والذكاء الاصطناعي وعلم البيانات، يؤدي تشابه جيب التمام دورًا محوريًا في:
تستخدم محركات البحث تشابه جيب التمام لمطابقة استعلامات المستخدم مع المستندات ذات الصلة، ما يؤدي إلى تحسين الدقة وجودة التصنيف.
تعمل الشبكات العصبية وأنظمة التعلم الآلي على مقارنة تضمينات المتجهات باستخدام تشابه جيب التمام لتقييم القرب الدلالي بين المدخلات.
تطبِّق أنظمة التوصية تقنيات البحث عن التشابه لاقتراح المنتجات أو الوسائط أو المحتوى الذي يتوافق مع سلوك المستخدم وتفضيلاته.
يدعم تشابه جيب التمام نمذجة الموضوع من خلال تجميع المستندات ذات الموضوعات المتشابهة. يتم إنشاء توزيعات الموضوعات هذه عادةً باستخدام طرق مثل تخصيص Latent Dirichlet (LDA).
بالإضافة إلى حالات استخدام النص، يدعم تشابه جيب التمام أيضًا أي سيناريو حيث تجب مقارنة الأنماط متعددة الأبعاد بسرعة ودقة - مثل التعرُّف على الصور والكشف عن الغش وتقسيم العملاء.
في الأصل، يقيس تشابه جيب التمام مدى محاذاة متجهين عن طريق حساب جيب تمام الزاوية بينهما.
في تطبيقات العالم الحقيقي مثل مقارنة المستندات، يتم تمثيل البيانات على أنها متجهات في مساحة متعددة الأبعاد. قد يمثِّل كل بُعد كلمة أو سمة أو إجراءً معينًا، وتعكِس القيمة في هذا البُعد مدى بروز هذا العنصر أو أهميته.
لحساب تشابه جيب التمام:
يمكن تمثيل الصيغة على النحو التالي:
تشابه جيب التمام = (A · B) / (||A|| × ||B||)
حيث:
تتراوح الدرجة الناتجة من -1 إلى 1.
لمزيد من التوضيح، تخيَّل الكلمتين: "الملك" و"الملكة".
كلتاهما تُستخدَم في سياقات مماثلة. عند معالجتهما من قِبَل النماذج اللغوية الكبيرة، تتم ترجمة كل كلمة إلى تضمين متجه يلتقط المعنى الدلالي للمصطلح بناءً على استخدامه عبر ملايين الجمل. ونظرًا لأن كلمتَي "ملك" و"ملكة" تظهران بشكل متكرر بالقرب من كلمات مثل "ملكي" و"عرش" و"ملك"، فإن تضميناتهما الناتجة ستشير إلى الاتجاه نفسه تقريبًا.
الآن فكِّر في كلمة ثالثة ، "تفاحة". على الرغم من أنها قد تظهر في بعض المستندات نفسها، إلا إنها ترتبط في أغلب الأحيان بمصطلحات مثل "فاكهة" أو "بستان" أو "منعش". يشير المتجه الخاص بها إلى اتجاه معاكس تقريبًا، ما يؤدي إلى تشابه جيب تمام منخفض. عند رسمها على الرسم البياني، فإن أسهم "الملك" و"الملكة" سوف تتحرك جنبًا إلى جنب تقريبًا، في حين أن سهم "التفاحة" سوف ينطلق بزاوية ملحوظة.
لتحسين الأداء ودعم استرجاع أسرع للمطابقات ذات الصلة، تقوم العديد من المؤسسات بتخزين هذه التضمينات في قواعد بيانات متجهات متخصصة - وهي أدوات مصممة لفهرسة المتجهات عالية الأبعاد لتحسين البحث وإرجاع النتائج الأكثر تشابهًا.
تشابه جيب التمام هو مجرد نهج واحد في منظومة واسعة من مقاييس التشابه. تم تصميم كل مقياس لتقييم التشابه بطرق مختلفة وهو أكثر ملاءمة لأنواع محددة من البيانات ضمن مساحة متعددة الأبعاد. ومن الأمثلة على ذلك:
يحسِب هذا المقياس مسافة الخط المستقيم بين نقطتين في فضاء متجه. إنه بديهي وشائع الاستخدام في تحليل البيانات، خاصةً لمقارنة البيانات الرقمية أو الميزات المادية. ومع ذلك، في المساحات ذات الأبعاد العالية حيث تميل المتجهات إلى التقارب في المسافة، تصبح المسافة الإقليدية أقل موثوقية لمهام مثل التجميع أو استرجاع المعلومات.
يقيس تشابه جاكارد التداخل بين مجموعتين من البيانات عن طريق تقسيم حجم التقاطع على حجم الاتحاد. ويتم تطبيقه عادةً على مجموعات البيانات التي تتضمن بيانات فئوية أو ثنائية -مثل العلامات أو النقرات أو مشاهدات المنتج- وهو مفيد بشكل خاص لأنظمة التوصيات. يركِّز جاكارد على الحضور أو الغياب، ولا يأخذ في الاعتبار التردد أو الحجم.
يعكس حاصل الضرب النقطي للمتجهين A وB مدى قرب إشارتهما في الاتجاه نفسه، ولكن دون تطبيع الأحجام. هذا العامل يجعله حساسًا للمقياس: قد تظهر المتجهات ذات القيم الكبيرة أكثر تشابهًا حتى لو اختلف اتجاهها.
يعمل تشابه جيب التمام على تحسين هذا المقياس عن طريق قسمة حاصل الضرب النقطي للمتجهات على حاصل ضرب مقدار المتجهات (صيغة تشابه جيب التمام). لذلك، يكون تشابه جيب التمام أكثر استقرارًا عند مقارنة المتجهات غير الصفرية ذات الأطوال المختلفة، وخاصةً في مجموعات البيانات عالية الأبعاد.
في الممارسة العملية، غالبًا ما تستخدم المؤسسات مقاييس تشابه جيب التمام جنبًا إلى جنب مع مقاييس أخرى اعتمادًا على بنية مجموعة البيانات ونوع الاختلاف الذي تريد تجنُّبه.
على سبيل المثال، غالبًا ما يجمع البحث عن التشابه في تطبيقات معالجة اللغة الطبيعية أو النماذج اللغوية الكبيرة بين مسافة جيب التمام ونماذج التضمين المدرَّبة على خوارزميات التعلم العميق. يتم أيضًا دمج حسابات تشابه جيب التمام في أدوات مفتوحة المصدر مثل Scikit-learn وTensorFlow وPyTorch، ما يجعل من الأسهل على علماء البيانات حساب تشابه جيب التمام عبر مجموعات البيانات واسعة النطاق.
نظرًا لدوره عبر عدد لا يُحصى من الأنظمة، فإن تشابه جيب التمام يوفر العديد من المزايا مقارنةً بمقاييس التشابه التقليدية:
على الرغم من مزاياه، فإن تشابه جيب التمام ليس خاليًا من القيود، ومنها:
للحصول على أقصى استفادة من تشابه جيب التمام، يمكن للمؤسسات أن تأخذ في الاعتبار ما يلي:
يمكن للمؤسسات تطبيع المتجهات قبل إجراء العمليات الحسابية لضمان اتساق المقياس والنتائج الصالحة، وخاصةً عند استخدام مدخلات عالية الأبعاد.
يجب على الشركات تنظيف مجموعات البيانات لإزالة أو وضع علامة على المتجهات الصفرية؛ لأنها ستتسبب في حدوث أخطاء "القسمة على الصفر" أثناء حسابات تشابه جيب التمام.
يمكن للمؤسسات أن تُكمل تشابه جيب التمام باستخدام مقاييس إضافية مثل تشابه جاكارد أو المسافة الإقليدية عندما تكون هناك حاجة إلى أبعاد متعددة من التشابه.
قبل النشر، يجب على الشركات تقييم أداء تشابه جيب التمام في البيئات التي تعكِس الظروف الواقعية، وخاصةً عند استخدامها في أنظمة الوقت الفعلي مثل واجهات برمجة التطبيقات (APIs).
يمكن للمؤسسات الاستفادة من المكتبات مفتوحة المصدر الناضجة لإجراء حسابات تشابه جيب التمام بكفاءة وعلى نطاق واسع. على سبيل المثال، يوفر Scikit-learn دالة تشابه جيب التمام جاهزة للاستخدام من خلال مسار وحدة Python: sklearn.metrics.pairwise.
بدلًا من ذلك، يمكن ترميز الصيغة مباشرةً في Python باستخدام NumPy:
“cosine_similarity = np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))”
مثل الأسهم، يساعد تشابه جيب التمام المؤسسات على التوافق اتجاهيًا. سواء أكان الأمر لمطابقة نتائج البحث أم لدعم صناعة القرارات القائمة على البيانات، يمكن لتشابه جيب التمام أن يوفر رؤًى قوية ويساعد على تخصيص التجارب عبر مختلَف الاستخدامات.
