يستخدم هذا البرنامج التعليمي وحدة نمطية من مكتبة scikit-learn (sklearn) لتقوم بتنفيذ مجموعات التجميع بالمتوسطات. وتتضمن الوحدة أساليب التحسين المضمنة التي يتم التعامل معها بواسطة معلمات الفئة الخاصة بها. تبدو فئة الوحدة كما يلي:
class sklearn.cluster.KMeans(n_clusters=8, *, init='k-means++', n_init='auto', max_iter=300, tol=0.0001, verbose=0, random_state=None, copy_x=True, algorithm='lloyd')12
تتضمن المعلمات عدد المجموعات المراد تشكيلها وعدد النقط المركزية المراد إنشاؤها (n_clusters). وثمة طريقتان متاحتان للتهيئة هما: التجميع العشوائي والتجميع بخوارزمية ++k-means. ويتضمن هذا أيضًا سمات لتحديد الحد الأقصى لعدد التكرارات. حيث يبدأ كل تكرار بتقسيم مجموعة البيانات إلى قيمة معلمة n_clusters.
تُستخدم المكتبات التالية لإنشاء مجموعة بيانات اختبارية وإجراء التجميع:
import pandas as pd
import sklearn
import matplotlib.pyplot as plt
import seaborn as sns
import numpy
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler