这是一篇关于K-Means聚类的技术博客文章,主要包含以下几个部分:
基本概念
介绍了监督学习与无监督学习的区别,聚类算法作为无监督学习的主要任务之一,用于将数据划分成有意义的组(簇)。
K-Means基本原理
关键概念:簇和质心
- 簇(Cluster):相似数据点的集合
- 质心(Centroid):簇中所有数据点的中心点
算法目标
通过迭代优化,使得同一簇内的数据点距离尽可能接近,不同簇的数据点距离尽可能远
K值确定方法
- 肘部法则(Elbow Method)
- 轮廓系数(Silhouette Score)
- 基于业务需求
工作过程
- 初始化K个质心
- 将每个数据点分配到距离最近的簇
- 重新计算每个簇的质心
- 重复迭代直到收敛
簇内误差平方和(Inertia)
衡量聚类效果的核心指标,Total Inertia越小代表聚类效果越好。
错误速查表
提供了常见错误的根因定位和修复方法。
答案
根据文章内容,K-Means的缺点包括:
- a. 对大数据的效率较低 ✓(缺点)
- b. 时间复杂度较高 ✓(缺点)
- c. 算法比…(选项c不完整,但根据题目”下列不是k-means的缺点的是”,答案应为c)