本教程使用 scikit-learn (sklearn) 库中的模块来执行 K 均值聚类。该模块包含内置优化技术,可通过其类参数进行操作。模块的类是这样的:

class sklearn.cluster.KMeans(n_clusters=8, *, init='k-means++', n_init='auto', max_iter=300, tol=0.0001, verbose=0, random_state=None, copy_x=True, algorithm='lloyd')12

这些参数包括要形成的集群数量和要生成的质心数量 (n_clusters)。有两种初始化方法可用:K 均值++ 和 random。它还包括用于设置最大迭代次数的属性。每次迭代首先将数据集分区为 n_clustersparameter 的值。

这些库用于生成测试数据集并执行聚类分析:

import pandas as pd import sklearn import matplotlib.pyplot as plt import seaborn as sns import numpy from sklearn.cluster import KMeans from sklearn.datasets import make_blobs from sklearn.decomposition import PCA from sklearn.preprocessing import StandardScaler