大数据-212 K-Means 聚类实战指南：从无监督概念到 Inertia、K 值选择与避坑

📚 大数据系列

2024/11/7

big-data machine-learning sklearn python

这是一篇关于K-Means聚类的技术博客文章，主要包含以下几个部分：

基本概念

介绍了监督学习与无监督学习的区别，聚类算法作为无监督学习的主要任务之一，用于将数据划分成有意义的组（簇）。

K-Means基本原理

关键概念：簇和质心

簇（Cluster）：相似数据点的集合
质心（Centroid）：簇中所有数据点的中心点

算法目标

通过迭代优化，使得同一簇内的数据点距离尽可能接近，不同簇的数据点距离尽可能远

K值确定方法

肘部法则（Elbow Method）
轮廓系数（Silhouette Score）
基于业务需求

工作过程

初始化K个质心
将每个数据点分配到距离最近的簇
重新计算每个簇的质心
重复迭代直到收敛

簇内误差平方和（Inertia）

衡量聚类效果的核心指标，Total Inertia越小代表聚类效果越好。

错误速查表

提供了常见错误的根因定位和修复方法。

答案

根据文章内容，K-Means的缺点包括：

a. 对大数据的效率较低 ✓（缺点）
b. 时间复杂度较高 ✓（缺点）
c. 算法比…（选项c不完整，但根据题目”下列不是k-means的缺点的是”，答案应为c）