يستخدم هذا البرنامج التعليمي وحدة نمطية من مكتبة scikit-learn (sklearn) لتقوم بتنفيذ مجموعات التجميع بالمتوسطات. وتتضمن الوحدة أساليب التحسين المضمنة التي يتم التعامل معها بواسطة معلمات الفئة الخاصة بها. تبدو فئة الوحدة كما يلي:

class sklearn.cluster.KMeans(n_clusters=8, *, init='k-means++', n_init='auto', max_iter=300, tol=0.0001, verbose=0, random_state=None, copy_x=True, algorithm='lloyd')12

تتضمن المعلمات عدد المجموعات المراد تشكيلها وعدد النقط المركزية المراد إنشاؤها (n_clusters). وثمة طريقتان متاحتان للتهيئة هما: التجميع العشوائي والتجميع بخوارزمية ++k-means. ويتضمن هذا أيضًا سمات لتحديد الحد الأقصى لعدد التكرارات. حيث يبدأ كل تكرار بتقسيم مجموعة البيانات إلى قيمة معلمة n_clusters.

تُستخدم المكتبات التالية لإنشاء مجموعة بيانات اختبارية وإجراء التجميع:

import pandas as pd import sklearn import matplotlib.pyplot as plt import seaborn as sns import numpy from sklearn.cluster import KMeans from sklearn.datasets import make_blobs from sklearn.decomposition import PCA from sklearn.preprocessing import StandardScaler