这是一篇关于K-Means聚类的技术博客文章,主要包含以下几个部分:

基本概念

介绍了监督学习与无监督学习的区别,聚类算法作为无监督学习的主要任务之一,用于将数据划分成有意义的组(簇)。

K-Means基本原理

关键概念:簇和质心

  • 簇(Cluster):相似数据点的集合
  • 质心(Centroid):簇中所有数据点的中心点

算法目标

通过迭代优化,使得同一簇内的数据点距离尽可能接近,不同簇的数据点距离尽可能远

K值确定方法

  • 肘部法则(Elbow Method)
  • 轮廓系数(Silhouette Score)
  • 基于业务需求

工作过程

  1. 初始化K个质心
  2. 将每个数据点分配到距离最近的簇
  3. 重新计算每个簇的质心
  4. 重复迭代直到收敛

簇内误差平方和(Inertia)

衡量聚类效果的核心指标,Total Inertia越小代表聚类效果越好。

错误速查表

提供了常见错误的根因定位和修复方法。

答案

根据文章内容,K-Means的缺点包括:

  • a. 对大数据的效率较低 ✓(缺点)
  • b. 时间复杂度较高 ✓(缺点)
  • c. 算法比…(选项c不完整,但根据题目”下列不是k-means的缺点的是”,答案应为c)