ماذا يعني التجميع بالمتوسطات؟

المؤلفين

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

Vanna Winland

AI Advocate & Technology Writer

ماذا يعني التجميع بالمتوسطات (k-means)؟

تُعَد خوارزمية التجميع بالمتوسطات إحدى خوارزميات التعلم غير الخاضع للإشراف، وتُستخدم لتجميع البيانات، حيث تعمل على تجميع نقاط البيانات غير المصنَّفة في مجموعات أو تجميعات عنقودية.

وتُعَد واحدة من أشهر طرق تجميع البيانات المستخدمة في التعلم الآلي. وعلى عكس التعلم الخاضع للإشراف، فإن بيانات التدريب التي تستخدمها هذه الخوارزمية تُعَد بيانات غير مصنَّفة، ما يعني أن نقاط البيانات ليست لها بنية تصنيف محددة.

ورغم وجود أنواع مختلفة من خوارزميات التجميع، كالخوارزمية الحصرية والمتداخلة والهرمية والاحتمالية، فإن خوارزمية تجميع البيانات بالمتوسطات تعد مثالاً على طريقة تجميع حصرية أو "صعبة". وينص هذا النوع من التجميع على أن نقطة البيانات الواحدة لا يمكن أن توجد إلا في مجموعة واحدة فقط. يُستخدم هذا النوع من التحليل التجمعي (العنقودي) بشكل شائع في علوم البيانات لتجزئة السوق (أي: تقسيم السوق إلى مجموعات) وتجميع المستندات وتجزئة الصورة وضغط الصور. ويشيع استخدام خوارزمية التجميع بالمتوسطات على نطاق واسع في التحليل التجمعي (العنقودي) لما تتسم به من كفاءة وفاعلية وبساطة.

كما تُعَد خوارزمية التجميع بالمتوسطات  خوارزمية تجميع تكرارية تستند إلى نقطة مركزية، حيث تعمل على تقسيم مجموعة البيانات إلى مجموعات متشابهة بناءً على البُعد بين نقاط مراكز هذه المجموعات. وتكون النقطة المركزية، وتُسمَّى أيضًا مركز المجموعة، هي المتوسط أو الوسيط لجميع النقاط داخل المجموعة اعتمادًا على خصائص البيانات.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

كيف يعمل التجميع بالمتوسطات؟

يعد التجميع بالمتوسطات عملية تكرارية لتقليل مجموع الأبعاد بين نقاط البيانات والنقاط المركزية للمجموعة الخاصة بها.

تعمل خوارزمية التجميع بالمتوسطات عن طريق تصنيف نقاط البيانات إلى مجموعات باستخدام مقياس من مقاييس المسافات الرياضية من مركز المجموعة، ويكون غالبًا من نوع القياس الإقليدي (قياس المسافة العادية بين نقطتين). والهدف هو تقليل مجموع المسافات بين نقاط البيانات والمجموعات المخصصة لها. حيث يتم تجميع نقاط البيانات الأقرب إلى النقطة المركزية معًا ضمن نفس فئة التصنيف. وتشير قيمة k الأعلى، أو عدد المجموعات، إلى مجموعات أصغر بتفاصيل أكبر، بينما تؤدي قيمة k الأقل إلى مجموعات أكبر بتفاصيل أقل.

تهيئة خوارزمية k

لا تحتاج الخوارزمية التقليدية للتجميع بالمتوسطات سوى خطوات قليلة. الخطوة الأولى هي تهيئة نقاط k المركزية حيث يكون  k مساويًا لعدد المجموعات المختارة لمجموعة بيانات محددة. وهذا الأسلوب يستخدم إما طريقة الاختيار العشوائي أو طريقة أخذ عينات من النقاط المركزية الأولية.

تعيين النقط المركزية

تتضمن الخطوة التالية عملية تكرارية مكونة من خطوتين وتستند إلى خوارزمية التعلم الآلي لزيادة التوقعات.تعمل خطوة التوقع على تعيين كل نقطة بيانات إلى أقرب نقطة مركزية لها بناءً على المسافة (ومرة أخرى، عادةً ما تكون مسافة إقليدية؛ أي: مسافة عادية بين نقطتين). تحسب خطوة الزيادة متوسط جميع النقاط لكل مجموعة وتُعيد تعيين مركز المجموعة، أو النقطة المركزية. وتتكرر هذه العملية حتى تصل مواضع النقطة المركزية إلى التقارب أو يتم الوصول إلى أقصى حد من عدد التكرارات.

يعد التجميع بالمتوسطات بسيطًا لكنه حساس للشروط الأولية والقيم الخارجية. ومن المهم تحسين تهيئة النقطة المركزية وعدد (k) للمجموعات، لتحقيق أهم مجموعات ذات أكبر مغزى. وتوجد عدة طرق لتقييم وتحسين مكونات التجميع للخوارزمية باستخدام مقاييس التقييم وطرق أخذ عينات النقطة المركزية الأولية.

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

مقاييس تقييم المجموعة

تحتوي مجموعات الجودة على خاصيتين على الأقل: 

  1. يجب أن تكون كل نقاط البيانات التي داخل المجموعة متشابهة.
  2. يجب أن تكون المجموعات متميزة بأن يختلف بعضها عن بعض.

يتم تحقيق هذه الخصائص عن طريق تقليل المسافة داخل المجموعة وزيادة المسافة بين المجموعات لجميع نقاط البيانات في مجموعة بيانات واحدة. بعبارة أخرى، كلما كانت المجموعة أكثر إحكامًا وعزلةً عن المجموعات الأخرى، كان ذلك أفضل. والهدف من خوارزمية التجميع بالمتوسطات هو تقليل مجموع الأخطاء التربيعية (SSE).2 يؤدي حساب مجموع الأخطاء التربيعية (SSE) للمسافة الإقليدية التربيعية لكل نقطة إلى أقرب نقطة مركزية إلى تقييم جودة تخصيصات المجموعة عن طريق قياس التباين الإجمالي داخل كل مجموعة.

من خلال مقاييس تقييم المجموعة يتم التحقق من الجودة وتوفير أشكال مختلفة من الرسم المنظوري لتحليل نتائج التجميع. وهذا يساعد على اختيار العدد الأمثل للمجموعات وتهيئة النقطة المركزية. تعد مقاييس التقييم التالية من أشهر طرق قياس المسافات سواء داخل المجموعة الواحدة أو بين عدة مجموعات.

القصور الذاتي

تهدف خوارزمية التجميع بالمتوسطات إلى اختيار النقط المركزية، أو مراكز المجموعة، التي تقلل من القصور الذاتي، وهو مقياس تقييم يقيس مدى جودة تجميع مجموعة البيانات بناءً على مقاييس المسافة. يتم حساب القصور الذاتي عن طريق قياس المسافة بين نقطة بيانات ونقطتها المركزية، وتربيع المسافة ثم جمع تلك التربيعات لكل نقطة بيانات في المجموعة. وقيمة المجموع أو قيمة القصور الذاتي هي المسافة داخل المجموعة. كلما كان المجموع أقل كان ذلك أفضل لأنه يعني أن نقاط البيانات الموجودة داخل المجموعة مدمجة أو أكثر تشابهًا.3

مؤشر Dunn

يتم قياس الخاصية الثانية باستخدام مؤشر Dunn. حيث يمثِّل مؤشر Dunn العلاقة بين الحد الأدنى للمسافة بين عدة مجموعات والحد الأقصى للمسافة داخل المجموعة الواحدة. فالمجموعات ذات المسافة العالية داخل المجموعة الواحدة تُشير إلى جودة أعلى لأنها تعني أن المجموعات متميزة ويختلف بعضها عن بعض قدر الإمكان.4

تحسين التجميع بالمتوسطات

يعد التحسين أمرًا مهمًا عند استخدام التجميع بالمتوسطات لتحقيق أفضل نتائج التجميع.

وتعتبر خوارزمية التجميع بالمتوسطات خوارزمية غير حتمية لما تحتويه من خطوة تهيئة عشوائية. وتشير هذه الطريقة إلى أنه إذا تم تنفيذ الخوارزمية مرتين على بيانات متطابقة، فسوف تختلف تعيينات المجموعة. لتحقيق نتائج التجميع المثالية، يؤدي تحديد النقط المركزية الأولية بشكل صحيح والعدد الأمثل للمجموعات إلى تحسين دقة وسرعة خوارزمية التجميع بالمتوسطات.

تهيئة النقط المركزية للمجموعات

يتم تمثيل كل مجموعة بواسطة النقطة المركزية، وهي نقطة بيانات تمثل مركز المجموعة. تقوم مجموعة التجميع بالمتوسطات بتجميع نقاط البيانات المتشابهة في مجموعات عن طريق تقليل المسافة بين نقاط البيانات في المجموعة باستخدام نقطة مركزها أو متوسط القيمة. والهدف الأساسي لخوارزمية التجميع بالمتوسطات هو تقليل المسافات الإجمالية بين النقاط وبين النقطة المركزية المخصصة لها. وتعمل الخوارزمية بشكل متكرر، ويؤثر اختيار القسم الأولي بدرجة كبيرة على المجموعات الناتجة.

قد تؤدي التهيئة العشوائية إلى نتائج غير متسقة. وتوجد طرق لتهيئة النقطة المركزية لتقليل هذه المخاطر. وهناك دراسة أجرتها جامعة سنغافورة الوطنية للحوسبة تشرح وتقارن بين الطرق هذه؛ مثل طريقة خوارزمية ++k-means الشهيرة والتهيئة العشوائية.5

خوارزمية ++ K-means

تُعَد خوارزمية ++K-means خوارزمية تجميع بالمتوسطات أيضًا لكنها تعمل على تحسين اختيار المجموعة الأولية أو النقاط المركزية. تم تطوير خوارزمية ++K-means على يد الباحثين "Arthur" و"Vassilvitskii"، وتعمل على تحسين جودة تعيين المجموعة النهائية.6

الخطوة الأولى للتهيئة باستخدام طريقة خوارزمية ++ K-means هي اختيار نقطة مركزية واحدة من مجموعة البيانات. ثم مع لكل نقطة مركزية تالية، يتم حساب مسافة كل نقطة بيانات من أقرب مركز مجموعة توجد بجوارها. ويتم تحديد النقطة المركزية التالية من خلال النظر في احتمالية أن تكون النقطة على مسافة متناسبة من أقرب نقطة مركزية تم اختيارها مسبقًا. وتنفذ هذه العملية التكرارات حتى تتم تهيئة العدد المختار من مراكز المجموعة.

فيما يلي برنامج تعليمي من IBM Developer يستخدم طريقة خوارزمية ++K-means لإجراء التهيئة.

اختيار العدد الأمثل للمجموعات

تتكرر خوارزمية ++ K-means على نحو مثالي إلى أن يتم الوصول إلى العدد الأمثل للمجموعات. ويتحقق الحد الأقصى لعدد التكرارات بمجرد أن تنجح النقط المركزية في تحقيق التقارب.

طريقة مِرفق شكل المنحنى

تُعَد طريقة مِرفق شكل المنحنى واحدة من طرق تحقيق العدد الأمثل من المجموعات. وهي طريقة رسومية للعثور على العدد الأمثل من المجموعات ضمن خوارزمية التجميع بالمتوسطات. حيث تقيس هذه الطريقة المسافة الإقليدية بين كل نقطة بيانات ومركز مجموعتها ثم يختار عدد المجموعات بناءً على المكان الذي يستقر عنده التغيير في "مجموع التربيعات ضمن المجموعة" (WCSS). تمثِّل هذه القيمة التباين الكلي داخل كل مجموعة يتم رسمها بيانيًا مقابل عدد المجموعات.7

الخطوة الأولى في طريقة مِرفق شكل المنحنى هي حساب "مجموع التربيعات ضمن المجموعة" (WCSS) لكل مجموعة (k). ثم بعد ذلك، يتم رسم قيمة WCSS على طول المحور y ويتم رسم عدد المجموعات على المحور x. ومع تزايد عدد المجموعات، يجب أن تشكِّل نقاط الرسم نمطًا ثابتًا. من هذا النمط، ينتج معنا نطاق للعدد الأمثل للمجموعات.8 ثم عند اتخاذ قرار بشأن عدد المجموعات، ضَع في الاعتبار تكاليف زمن المعالجة الحسابية. فكلما زاد عدد المجموعات، زادت الحاجة إلى قوة المعالجة لا سيّما مع مجموعات البيانات الكبيرة.

وهذه الطريقة ليست أفضل طريقة بالضرورة، لا سيّما بالنسبة لمجموعات البيانات ذات الأبعاد العالية أو ذات الشكل غير المنتظم. فهناك طريقة أخرى لاختيار العدد الأمثل من المجموعات، ألا وهي تحليل الصورة المُظلَّلة (Silhouette).9

رسم بياني مصور لطريقة التجميع بالمتوسطات

تطبيقات في التعلم الآلي

يتم استخدام خوارزمية التجميع بالمتوسطات في كل قطاع ومجال تقريبًا. ويتم تطبيقه عادةً على بيانات التعلم الآلي قليلة الأبعاد، والرقمية والتي يمكن تقسيمها بسهولة.

قام الباحثون بعمل دمج وتكامل بين التجميع باستخدام طريقة التجميع بالمتوسطات وبين طرق التعلم العميق مثل CNNs وRNNs لتحسين أداء مهام التعلم الآلي المتنوعة مثل رؤية الكمبيوتر ومعالجة اللغة الطبيعية والعديد من المجالات الأخرى. وفيما يلي قائمة بأشهر تطبيقات التجميع بالمتوسطات:

تقسيم العملاء: هي ممارسة تقسيم عملاء الشركة إلى مجموعات فرعية بناءً على الخصائص المشتركة التي تعكس التشابه بين أفراد كل مجموعة. حيث تتيح هذه الاستراتيجية للشركات استهداف مجموعات أو مجموعات محددة من العملاء لحملات إعلانية محددة.

تصنيف المستندات: هو إجراء لتخصيص فئات تصنيفات أو فئات متنوعة للمستندات. ويتم استخدام هذه الطريقة من قِبل العديد من المؤسسات للإشراف على المحتوى. يمكنك إلقاء نظرة على وثائق Watson Discover هذه لمعرفة كيفية إنشاء مصنِّف مستندات.

تقسيم الصورة: إحدى تقنيات رؤية الكمبيوتر التي تقسِّم الصورة الرقمية إلى مجموعات مميزة مكونة من وحدات البكسل. يستكشف هذا البحث كيفية استخدام نماذج التجميع بالمتوسطات للمساعدة على تحديد الحدود في صور التشخيص الطبي.10

محركات التوصية: نجد أن التطبيقات المنتشرة في الإنترنت تستخدم محركات التوصية. حيث يتم استخدام أساليب تحليل العناصر الأساسية والتجميع بالمتوسطات لجمع توصيات حول المنتج بما يفيد شركات التجارة الإلكترونية.11

تدريب نماذج التجميع بالمتوسطات باستخدام Python

للحصول على تجربة تعليمية عملية، راجِع البرنامج التعليمي الذي يشرح أساسيات التجميع بطريقة التجميع بالمتوسطات في Python باستخدام IBM Watson Studio على منصة watsonx.ai.

يستخدم هذا البرنامج التعليمي وحدة نمطية من مكتبة scikit-learn (sklearn) لتقوم بتنفيذ مجموعات التجميع بالمتوسطات. وتتضمن الوحدة أساليب التحسين المضمنة التي يتم التعامل معها بواسطة معلمات الفئة الخاصة بها. تبدو فئة الوحدة كما يلي:

class sklearn.cluster.KMeans(n_clusters=8*init='k-means++'n_init='auto'max_iter=300tol=0.0001verbose=0random_state=Nonecopy_x=Truealgorithm='lloyd')12

تتضمن المعلمات عدد المجموعات المراد تشكيلها وعدد النقط المركزية المراد إنشاؤها (n_clusters). وثمة طريقتان متاحتان للتهيئة هما: التجميع العشوائي والتجميع بخوارزمية ++k-means. ويتضمن هذا أيضًا سمات لتحديد الحد الأقصى لعدد التكرارات. حيث يبدأ كل تكرار بتقسيم مجموعة البيانات إلى قيمة معلمة n_clusters.

تُستخدم المكتبات التالية لإنشاء مجموعة بيانات اختبارية وإجراء التجميع:

import pandas as pd 
import sklearn
import matplotlib.pyplot as plt
import seaborn as sns
import numpy

from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

المزايا والعيوب

المزايا

فيما يلي بعض الفوائد الشائعة للتجميع بالمتوسطات في تطبيقات التعلم الآلي:

بسيط: يتميز التجميع باستخدام أسلوب التجميع بالمتوسطات بأنه سهل الفهم والتطبيق العملي. فهو أسلوب من أكثر أساليب التعلم الآلي غير الموجَّه شيوعًا.

سريع: حيث تم تصميم التجميع بالمتوسطات باستخدام نهج تكراري بسيط حسابيًا. وتُعَد خوارزمية التجميع بالمتوسطات أسرع من التجميع الهرمي الذي يتضمن بناء بنية مجموعات تشبه الشجرة ويتطلب حساب المسافات بين كل زوج من نقاط البيانات.

قابل للتوسع: يمكن أيضًا توسيع التجميع بالمتوسطات بسهولة إلى مجموعات بيانات كبيرة وتعميمها على مجموعات مختلفة الأشكال والأحجام، وهو أمر ممتاز لتحليل المجموعات. نظرًا لأن الخوارزمية فعَّالة جدًا من الناحية الحسابية، فهي أكثر قابلية للتطوير ومناسبة لمجموعات البيانات الكبيرة مقارنةً بالطرق الأخرى.

العيوب

تتضمن بعض التحديات الشائعة المرتبطة بالتجميع بالمتوسطات ما يلي:

الاعتماد والتوقف على معلمات الإدخال: يعتمد ويتوقف التجميع باستخدام طريقة التجميع بالمتوسطات على معلمات إدخال مضبوطة بشكل صحيح. وتعد تهيئة النقطة المركزية المناسبة وعدد المجموعات الملائم طريقة خالية من العيوب للحصول على نتائج مهمة من المجموعات. بينما التهيئة السيئة للنقطة المركزية فقد تؤدي إلى زيادة وقت التشغيل وتعيينات مجموعة منخفضة الجودة. وقد تم إجراء كثير من الأبحاث لتحسين إجراء تهيئة النقطة المركزية للحصول على نتائج تجميع أفضل ووقت تقارب أسرع.

احتمال ضعف الأداء في مجموعات بيانات معينة: يعمل التجميع بالمتوسطات بشكل فعَّال عندما تحتوي مجموعة البيانات على مجموعات متشابهة في الحجم ولا توجد قيم خارجية ملحوظة أو اختلافات في الكثافة. يكون أداء التجميع بالمتوسطات ضعيفًا عندما تحتوي مجموعة البيانات على العديد من الاختلافات أو حين تكون ذات أبعاد عالية. قد تتسبب البيانات التي لا تتوافق مع افتراضات مجموعة البيانات المحددة في أن يُنتِج التجميع بالمتوسطات مجموعات منخفضة الجودة.13 على سبيل المثال، قد تؤدي المجموعات ذات الحجم غير المتساوي إلى انحراف النقط المركزية نحو المجموعات الأكبر، ما يؤدي إلى تحيّز وسوء تصنيف بين المجموعات الأصغر. ولحل هذه المشكلة، يمكن تعميم التجميع بالمتوسطات باستخدام نماذج احتمالية مثل عقدة نموذج الخليط الغاوسي.

تأثير القيم الخارجية الكبير: يكون للقيم الخارجية تأثير كبير على نتائج التجميع باستخدام طريقة التجميع بالمتوسطات. فيجب أن تكون المجموعات المختلفة متباعدة، لكن ليست متباعدة لدرجة تحريف بيانات النقاط. فمن المهم مراعاة افتراضات البيانات قبل تطبيق التجميع بالمتوسط. يعد التجميع بالمتوسط حساسًا بشكل خاص للقيم المتطرفة لأنه يهدف إلى تحديد النقط المركزية عن طريق حساب متوسط القيم باستخدام المجموعة. وهذه الحساسية تجعله عرضة لفرط تخصيص النموذج لتضمين هذه القيم الخارجية.

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا