My IBM Log in اشترك

ماذا يعني التجميع بالمتوسطات؟

26 يونيو 2024

المؤلفين

Eda Kavlakoglu

Program Manager

Vanna Winland

AI Advocate & Technology Writer

تعد خوارزمية التجميع بالمتوسطات إحدى خوارزميات التعلم غير الموجَّه، وتُستخدم لتجميع البيانات، حيث تقوم بتجميع نقاط البيانات غير المصنفة في مجموعات أو تجميعات عنقودية.

تعد هذه الخوارزمية واحدة من أشهر طرق تجميع البيانات المستخدمة في التعلم الآلي. وعلى عكس التعلم الموجَّه، تعتمد هذه الخوارزمية على بيانات تدريب غير مصنفة، مما يعني أن نقاط البيانات ليس لها بنية تصنيف محددة.

ورغم وجود أنواع مختلفة من خوارزميات التجميع، كالخوارزمية الحصرية والمتداخلة والهرمية والاحتمالية، فإن خوارزمية تجميع البيانات بالمتوسطات تعد مثالاً على طريقة تجميع حصرية أو "صعبة". يشترط هذا النوع من التجميع على أن نقطة البيانات لا يمكن أن تنتمي إلا إلى مجموعة واحدة فقط. يُستخدم هذا النوع من التحليل التجمعي (العنقودي) بشكل شائع في علوم البيانات لتجزئة السوق (أي: تقسيم السوق إلى مجموعات) وتجميع المستندات وتجزئة الصورة وضغط الصور. وتُعد خوارزمية التجميع بالمتوسطات من أكثر طرق التحليل التجمعي (العنقودي) استخدامًا نظرًا لكفاءتها وفعاليتها وبساطتها.

كما تعد خوارزمية التجميع بالمتوسطات  خوارزمية تجميع تكرارية تستند إلى نقطة مركزية ، حيث تقوم بتقسيم مجموعة البيانات إلى مجموعات متشابهة بناءً على البُعد بين نقاط مراكز هذه المجموعات.وتكون النقطة المركزية، وتسمى أيضًا مركز المجموعة، إما المتوسط أو الوسيط لجميع النقاط داخل المجموعة اعتمادًا على خصائص البيانات.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

كيف يعمل التجميع بالمتوسطات؟

يعد التجميع بالمتوسطات عملية تكرارية لتقليل مجموع الأبعاد بين نقاط البيانات ونقاط مراكز المجموعات الخاصة بها.

تعمل خوارزمية التجميع بالمتوسطات عن طريق تصنيف نقاط البيانات إلى مجموعات باستخدام مقياس رياضي للمسافات من مركز المجموعة، ويكون غالبًا من نوع القياس الإقليدي (قياس المسافة العادية بين نقطتين). والهدف هو تقليل مجموع المسافات بين نقاط البيانات والمجموعات المخصصة لها. حيث يتم تجميع نقاط البيانات الأقرب إلى النقطة المركزية معًا ضمن نفس فئة التصنيف. وتشير قيمة k الأعلى، أو عدد المجموعات، إلى مجموعات أصغر بتفاصيل أكبر، بينما تؤدي قيمة k الأقل إلى مجموعات أكبر بتفاصيل أقل.

تهيئة خوارزمية k

لا تتطلب الخوارزمية التقليدية للتجميع بالمتوسطات سوى خطوات قليلة. الخطوة الأولى هي تهيئة k مراكز حيث تكون k مساوية لعدد المجموعات المختارة لمجموعة بيانات معينة. يتم استخدام هذه الطريقة إما عن طريق الاختيار العشوائي أو باستخدام طريقة أخذ عينات من المراكز الأولية.

تعيين النقط المركزية

تتضمن الخطوة التالية عملية تكرارية مكونة من خطوتين وتستند إلى خوارزمية التعلم الآلي لتكبير التوقعات.تقوم خطوة التوقع بتعيين كل نقطة بيانات إلى أقرب نقطة مركزية لها بناءً على المسافة (ومرة أخرى، عادةً ما تكون مسافة إقليدية؛ أي: مسافة عادية بين نقطتين).تقوم خطوة تحقيق أقصى قدر بحساب متوسط جميع النقاط لكل مجموعة وتعيد تعيين مركز المجموعة أو النقطة المركزية.وتتكرر هذه العملية حتى تصل مواضع النقاط المركزية إلى التقارب أو يتم الوصول إلى الحد الأقصى من التكرارات.

يعد التجميع بالمتوسطات بسيطًا لكنه حساس للشروط الأولية والقيم الخارجية. ومن المهم تحسين تهيئة النقطة المركزية وعدد (k) للمجموعات، لتحقيق أكثر المجموعات مغزى. وتوجد عدة طرق لتقييم وتحسين مكونات التجميع للخوارزمية باستخدام مقاييس التقييم وطرق أخذ عينات النقطة المركزية الأولية.

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

مقاييس تقييم المجموعة

تحتوي مجموعات الجودة على خاصيتين على الأقل:

  1. يجب أن تكون كل نقاط البيانات التي داخل المجموعة متشابهة.
  2. يجب أن تكون المجموعات متميزة بأن يختلف بعضها عن بعض.

يتم تحقيق هذه الخصائص عن طريق تقليل المسافة داخل المجموعة وتعظيم المسافة بين المجموعات لجميع نقاط البيانات في مجموعة بيانات واحدة. بعبارة أخرى، كلما كانت المجموعة أكثر إحكامًا وعزلةً عن المجموعات الأخرى، كان ذلك أفضل. والهدف من خوارزمية التجميع بالمتوسطات هو تقليل مجموع الأخطاء التربيعية (SSE).2 يؤدي حساب مجموع الأخطاء التربيعية (SSE) للمسافة الإقليدية التربيعية لكل نقطة إلى أقرب نقطة مركزية إلى تقييم جودة تخصيصات المجموعة عن طريق قياس التباين الإجمالي داخل كل مجموعة.

من خلال مقاييس تقييم المجموعة يتم التحقق من الجودة وتوفير أشكال مختلفة من الرسم المنظوري لتحليل نتائج التجميع. وهذا يساعد على اختيار العدد الأمثل للمجموعات وتهيئة النقطة المركزية. تعد مقاييس التقييم التالية من أشهر طرق قياس المسافات سواء داخل المجموعة الواحدة أو بين عدة مجموعات.

القصور الذاتي

تهدف خوارزمية التجميع بالمتوسطات إلى اختيار النقط المركزية، أو مراكز المجموعة، التي تقلل من القصور الذاتي، وهو مقياس تقييم يقيس مدى جودة تجميع مجموعة البيانات بناءً على مقاييس المسافة. يتم حساب القصور الذاتي عن طريق قياس المسافة بين نقطة بيانات ونقطتها المركزية، وتربيع المسافة ثم جمع تلك التربيعات لكل نقطة بيانات في المجموعة. وقيمة المجموع أو قيمة القصور الذاتي هي المسافة داخل المجموعة. كلما كان المجموع أقل كان ذلك أفضل لأنه يعني أن نقاط البيانات الموجودة داخل المجموعة مدمجة أو أكثر تشابهًا.3

مؤشر Dunn

يتم قياس الخاصية الثانية باستخدام مؤشر Dunn.حيث يمثل مؤشر Dunn العلاقة بين الحد الأدنى للمسافة بين عدة مجموعات والحد الأقصى للمسافة داخل المجموعة الواحدة. فالمجموعات ذات المسافة العالية داخل المجموعة الواحدة تشير إلى جودة أعلى لأنها تعني أن المجموعات متميزة ويختلف بعضها عن بعض قدر الإمكان.4

تحسين التجميع بالمتوسطات

يعد التحسين أمرًا مهمًا عند استخدام التجميع بالمتوسطات لتحقيق أفضل نتائج التجميع.

وتعتبر خوارزمية التجميع بالمتوسطات خوارزمية غير حتمية لما تحتويه من خطوة تهيئة عشوائية. وتشير هذه الطريقة إلى أنه إذا تم تنفيذ الخوارزمية مرتين على بيانات متطابقة، فسوف تختلف تعيينات المجموعة. لتحقيق نتائج التجميع المثالية، يؤدي تحديد النقط المركزية الأولية بشكل صحيح والعدد الأمثل للمجموعات إلى تحسين دقة وسرعة خوارزمية التجميع بالمتوسطات.

تهيئة النقط المركزية للمجموعات

يتم تمثيل كل مجموعة بواسطة النقطة المركزية، وهي نقطة بيانات تمثل مركز المجموعة. تقوم مجموعة التجميع بالمتوسطات بتجميع نقاط البيانات المتشابهة في مجموعات عن طريق تقليل المسافة بين نقاط البيانات في المجموعة باستخدام نقطة مركزها أو متوسط القيمة. ويتمثل الهدف الأساسي لخوارزمية التجميع بالمتوسطات في تقليل المسافات الإجمالية بين النقاط وبين النقطة المركزية المخصصة لها. تعمل الخوارزمية بشكل متكرر، ويؤثر اختيار القسم الأولي بدرجة كبيرة على المجموعات الناتجة.

قد تؤدي التهيئة العشوائية إلى نتائج غير متسقة. وتوجد طرق لتهيئة النقطة المركزية للتقليل من هذه المخاطر. هناك دراسة أجرتها جامعة سنغافورة الوطنية للحوسبة تشرح وتقارن بين هذه الطرق؛ مثل خوارزمية ++k-means الشهيرة والتهيئة العشوائية.5

خوارزمية ++ K-means

تعتبر خوارزمية ++ K-means خوارزمية تجميع بالمتوسطات أيضًا لكنها تعمل على تحسين اختيار المجموعة الأولية أو النقاط المركزية. تم تطوير خوارزمية ++ K-means على يد الباحثين "Arthur" و"Vassilvitskii"، وتعمل على تحسين جودة تخصيص المجموعات النهائية.6

الخطوة الأولى للتهيئة باستخدام طريقة خوارزمية ++ K-means هي اختيار نقطة مركزية واحدة من مجموعة البيانات. ثم، لكل نقطة مركزية تالية، يتم حساب مسافة كل نقطة بيانات من أقرب مركز مجموعة لها. ويتم تحديد النقطة المركزية التالية بناءً على احتمالية أن تكون النقطة على مسافة متناسبة من أقرب نقطة مركزية تم اختيارها مسبقًا. وتنفذ هذه العملية التكرارات حتى تتم تهيئة العدد المحدد من مراكز المجموعات.

فيما يلي برنامج تعليمي من IBM Developer يستخدم طريقة خوارزمية ++ K-means لإجراء التهيئة.

اختيار العدد الأمثل للمجموعات

تتكرر خوارزمية ++ K-means على نحو مثالي إلى أن يتم الوصول إلى العدد الأمثل للمجموعات. ويتحقق الحد الأقصى لعدد التكرارات بمجرد أن تصل النقط المركزية إلى التقارب.

طريقة مِرفق شكل المنحنى

تعتبر طريقة مِرفق شكل المنحنى واحدة من طرق تحديد العدد الأمثل من المجموعات. وهي طريقة رسومية للعثور على العدد الأمثل من المجموعات ضمن خوارزمية التجميع بالمتوسطات. حيث تقيس هذه الطريقة المسافة الإقليدية بين كل نقطة بيانات ومركز مجموعتها، ثم يتم اختيار عدد المجموعات بناءً على المكان الذي يتوقف عنده التغيير في "مجموع التربيعات داخل المجموعة" (WCSS). تمثل هذه القيمة التباين الكلي داخل كل مجموعة، ويتم رسمها بيانيًا مقابل عدد المجموعات.7

الخطوة الأولى في طريقة مِرفق شكل المنحنى هي حساب "مجموع التربيعات داخل المجموعة" (WCSS) لكل مجموعة (k). ثم بعد ذلك، يتم رسم قيمة WCSS على المحور y ورسم عدد المجموعات على المحور x. ومع زيادة عدد المجموعات، يجب أن تشكل نقاط الرسم نمطًا ثابتًا. من هذا النمط، يمت تحديد نطاق للعدد الأمثل للمجموعات.8  ثم عند اتخاذ قرار بشأن عدد المجموعات، يجب أخذ تكاليف زمن المعالجة الحسابية في الاعتبار. فكلما زاد عدد المجموعات، زادت الحاجة إلى قوة معالجة أكبر، لا سيما مع مجموعات البيانات الكبيرة.

وهذه الطريقة ليست بالضرورة هي الأفضل، لا سيما بالنسبة لمجموعات البيانات ذات الأبعاد العالية أو ذات الشكل غير المنتظم. فهناك طريقة أخرى لاختيار العدد الأمثل من المجموعات، ألا وهي تحليل الشكل المُظلَّل.9

تطبيقات في التعلم الآلي

يتم استخدام خوارزمية التجميع بالمتوسطات في كل قطاع ومجال تقريبًا. ويتم تطبيقه عادةً على بيانات التعلم الآلي قليلة الأبعاد، والرقمية والتي يمكن تقسيمها بسهولة.

قام الباحثون بعمل دمج وتكامل بين التجميع باستخدام طريقة التجميع بالمتوسطات وبين طرق التعلم العميق مثل الشبكات العصبية التلافيفية (CNNs) والشبكات العصبية المتكررة (RNNs) لتحسين أداء مهام التعلم الآلي المتنوعة مثل رؤية الكمبيوتر ومعالجة اللغة الطبيعية (NLP) والعديد من المجالات الأخرى. وفيما يلي قائمة بأشهر تطبيقات التجميع بالمتوسطات:

تقسيم العملاء: هي ممارسة تقسيم عملاء الشركة إلى مجموعات فرعية بناءً على الخصائص المشتركة التي تعكس التشابه بين أفراد كل مجموعة. حيث تتيح هذه الاستراتيجية للشركات استهداف مجموعات أو جماعات محددة من العملاء لحملات إعلانية محددة.

تصنيف المستندات: هو إجراء لتخصيص فئات تصنيفات أو فئات متنوعة للمستندات.ويتم استخدام هذه الطريقة من قِبل العديد من المؤسسات للإشراف على المحتوى.يمكنك إلقاء نظرة على وثائق Watson Discover هذه لمعرفة كيفية إنشاء مصنِّف مستندات.  

تقسيم الصورة: إحدى تقنيات الرؤية الحوسبية التي تقسِّم الصورة الرقمية إلى مجموعات مميزة مكونة من وحدات بكسل. يستكشف هذا البحث كيفية استخدام نماذج التجميع بالمتوسطات للمساعدة في تحديد الحدود في صور التشخيص الطبي.10

محركات التوصية: تُستخدم محركات التوصية في العديد من التطبيقات على الإنترنت. يتم الاعتماد على تحليل المكونات الأساسية (PCA) وتقنيات تجميع K-means لإنشاء توصيات المنتجات التي تدعم أعمال التجارة الإلكترونية.11

تدريب نماذج التجميع بالمتوسطات باستخدام Python

للحصول على تجربة تعليمية عملية، تحقق من البرنامج التعليمي الذي يشرح أساسيات تنفيذ تجميع k-means في Python باستخدام IBM Watson Studio على watsonx.ai.

يستخدم هذا البرنامج التعليمي وحدة نمطية من مكتبة scikit-learn (sklearn) لتقوم بتنفيذ مجموعات التجميع بالمتوسطات. وتتضمن الوحدة أساليب التحسين المضمنة التي يتم التعامل معها بواسطة معلمات الفئة الخاصة بها. تبدو فئة الوحدة كما يلي:

class sklearn.cluster.KMeans(n_clusters=8*init='k-means++'n_init='auto'max_iter=300tol=0.0001verbose=0random_state=Nonecopy_x=Truealgorithm='lloyd')12

تتضمن المعلمات عدد المجموعات المراد تشكيلها وعدد النقط المركزية المراد إنشاؤها (n_clusters). وثمة طريقتان متاحتان للتهيئة هما: التجميع العشوائي والتجميع بخوارزمية ++k-means. ويتضمن هذا أيضًا سمات لتحديد الحد الأقصى لعدد التكرارات. حيث يبدأ كل تكرار بتقسيم مجموعة البيانات إلى قيمة معلمة n_clusters.

تُستخدم المكتبات التالية لإنشاء مجموعة بيانات اختبارية وإجراء التجميع:

import pandas as pd 
import sklearn
import matplotlib.pyplot as plt
import seaborn as sns
import numpy

from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

المزايا والعيوب

المزايا

فيما يلي أبرز فوائد التجميع بالمتوسطات في تطبيقات التعلم الآلي:

البساطة: يتميز التجميع باستخدام أسلوب التجميع بالمتوسطات بسهولة الفهم والتطبيق العملي. فهو أحد أكثر أساليب التعلم الآلي غير الموجَّه شيوعًا.

سريع: حيث تم تصميم التجميع باستخدام طريقة التجميع بالمتوسطات باستخدام نهج تكراري بسيط حسابيًا. وتعد خوارزمية التجميع بالمتوسطات أسرع من التجميع الهرمي الذي يتضمن بناء بنية مجموعات تشبه الشجرة وتتطلب حساب المسافة مثنى بين جميع نقاط البيانات.

قابل للتوسع: يمكن أيضًا توسيع التجميع بالمتوسطات بسهولة إلى مجموعات بيانات كبيرة وتعميمها على مجموعات مختلفة الأشكال والأحجام، وهو أمر ممتاز لتحليل المجموعات. نظرًا لأن الخوارزمية فعالة جدًا من الناحية الحسابية، فهي أكثر قابلية للتطوير ومناسبة لمجموعات البيانات الكبيرة مقارنة بالطرق الأخرى.

العيوب

من التحديات الشائعة التي تواجه التجميع بالمتوسطات ما يلي:

الاعتماد والتوقف على معلمات الإدخال: يعتمد ويتوقف التجميع باستخدام طريقة التجميع بالمتوسطات على معلمات إدخال مضبوطة بشكل صحيح. وتعد تهيئة النقطة المركزية المناسبة وعدد المجموعات الملائم طريقة خالية من العيوب للحصول على نتائج مهمة من المجموعات. بينما التهيئة السيئة للنقطة المركزية فقد تؤدي إلى زيادة وقت التشغيل وتعيينات مجموعة منخفضة الجودة. وقد تم إجراء كثير من الأبحاث لتحسين إجراء تهيئة النقطة المركزية للحصول على نتائج تجميع أفضل ووقت تقارب أسرع.

احتمال ضعف الأداء في مجموعات بيانات معينة: يعمل التجميع بالمتوسطات بشكل فعال عندما تحتوي مجموعة البيانات على مجموعات متشابهة في الحجم ولا توجد قيم خارجية ملحوظة أو اختلافات في الكثافة. يكون أداء التجميع بالمتوسط ضعيفًا عندما تحتوي مجموعة البيانات على العديد من الاختلافات أو حين تكون ذات أبعاد عالية. قد تتسبب البيانات التي لا تتوافق مع افتراضات مجموعة البيانات المحددة في أن ينتج التجميع بالمتوسطات مجموعات منخفضة الجودة.13 على سبيل المثال، قد تؤدي المجموعات ذات الحجم غير المتساوي إلى انحراف النقط المركزية نحو المجموعات الأكبر مما يؤدي إلى تحيز وسوء تصنيف بين المجموعات الأصغر. ولحل هذه المشكلة، يمكن تعميم التجميع بالمتوسطات باستخدام نماذج احتمالية مثل عقدة نموذج الخليط الغوسي.

تأثير القيم الخارجية الكبير: يكون للقيم الخارجية تأثير كبير على نتائج التجميع باستخدام طريقة التجميع بالمتوسطات. فيجب أن تكون المجموعات المختلفة متباعدة، لكن ليست متباعدة لدرجة تحريف بيانات النقاط. فمن المهم مراعاة افتراضات البيانات قبل تطبيق التجميع بالمتوسط. يعد التجميع بالمتوسط حساسًا بشكل خاص للقيم المتطرفة لأنه يهدف إلى تحديد النقط المركزية عن طريق حساب متوسط القيم باستخدام المجموعة. وهذه الحساسية تجعله عرضة لفرط تخصيص النموذج لتضمين هذه القيم الخارجية.

حلول ذات صلة

حلول ذات صلة

®IBM® watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفِد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها التي ستكون بجانبك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. توصَّل إلى حلول ذكاء اصطناعي قوية باستخدام واجهات سهلة الاستخدام وتدفقات سير عمل سلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرمجيات وفق معايير الصناعة (SDKs).

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا
الحواشي

1 Todd K. Moon, "The Expectation Maximization Algorithm, " IEE Signal Processing Magazine, https://ieeexplore.ieee.org/document/543975 (محتوى الرابط موجود خارج موقع ibm.com)

2 Kevin Arvai, "K-Means Clustering in Python: A Practical Guide," https://realpython.com/k-means-clustering-python/#:~:text=Understanding%20the%20K%2DMeans%20Algorithm,-Conventional%20k%2Dmeans&text=The%20quality%20of%20the%20cluster,point%20to%20its%20closest%20centroid. (محتوى الرابط موجود خارج موقع ibm.com)

3 "Clustering: K-Means," https://www.codecademy.com/learn/dspath-unsupervised/modules/dspath-clustering/cheatsheet (محتوى الرابط موجود خارج موقع ibm.com)

4 "Dunn Index," https://ruivieira.dev/dunn-index.html (محتوى الرابط موجود خارج موقع ibm.com)

5 Xiangyuan, Siyuan, Hao, "A survey on k-means initialization methods," https://www.comp.nus.edu.sg/~arnab/randalg20/HLW.pdf (محتوى الرابط موجود خارج موقع ibm.com)

6 Arthur, Vassilvitskii, "k-means++: The Advantages of Careful Seeding, " Standford, https://theory.stanford.edu/~sergei/papers/kMeansPP-soda.pdf (محتوى الرابط موجود خارج موقع ibm.com)

7 Gutierrez, "Unsupervised Learning: Evaluating Clusters," https://opendatascience.com/unsupervised-learning-evaluating-clusters/ (محتوى الرابط موجود خارج موقع ibm.com)

8 "K-means clustering using Python on IBM watsonx.ai," https://developer.ibm.com/tutorials/awb-k-means-clustering-in-python/ , step 4 (محتوى الرابط موجود خارج موقع ibm.com)

9 Shutaywi, Kachouie, "Silhouette Analysis for Performance Evaluation in Machine Learning with Applications in Clustering," June 2021, https://www.mdpi.com/1099-4300/23/6/759 (محتوى الرابط موجود خارج موقع ibm.com)

10 Dhanachandra, Manglem, Chanu, "Image Segmentation Using K-means Clustering Algorithm and Subtractive Clustering Algorithm," ScienceDirect Vol 54, pgs 764-771, https://www.sciencedirect.com/science/article/pii/S1877050915014143 (محتوى الرابط موجود خارج موقع ibm.com)

11 Bagus Mulyawan et al, "Recommendation Product Based on Customer Categorization with K-Means Clustering Method," 2019 IOP Conf. Ser.: Mater. Sci. Eng. 508 012123 https://iopscience.iop.org/article/10.1088/1757-899X/508/1/012123/pdf#:~:text=The%20K%2DMeans%20algorithm%20is,group%20customer%20based%20on%20attributes. (محتوى الرابط خارج موقع ibm.com)

12 scikit-learn, https://github.com/scikit-learn/scikit-learn/blob/5491dc695/sklearn/cluster/_kmeans.py#L1193 (محتوى الرابط موجود خارج موقع ibm.com)

13 "Demonstration of k-means assumptions," https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_assumptions.html(محتوى الرابط خارج موقع ibm.com)