标签: sklearn

共 13 篇文章

大数据-215 sklearn KMeans 关键属性与评估：cluster_centers_、inertia_、轮廓系数选 K 实战

文章浏览阅读6.1k次，点赞30次，收藏32次。scikit-learn（sklearn）KMeans（2026）解释三个最常用对象：cluster_centers_（聚类中心）、inertia_（簇内平方和/Within-Cluster Sum of Squares）以及聚类评估指标 silhouette_score / silhouette_samples（轮廓系数，范围 [-1, 1]）。inertia_随簇数 K 增大通常单调下降，适合做「肘部法则」参考，但不具备可比上界且强依赖特征尺度与维度；因此在选 K 时，更工程化的做法是：对 K 进行网格搜索并结合轮廓系数等指标综合评估。sklearn.cluster

2024/11/9

大数据-216 KMeans 选 n_clusters：轮廓系数（Silhouette）实战 + init/n_init/random_state 版本坑（scikit-learn 1.4+）

文章浏览阅读5.2k次，点赞32次，收藏26次。KMeans 选 n_clusters 方法：在候选簇数（如 2/4/6/8）上计算 silhouette_score 与 silhouette_samples，结合轮廓系数分布图与聚类散点图判断最优 k，并解释「轮廓系数均值不等于最佳」的典型情况（簇内分裂、簇间重叠、离群点拉低）。同时梳理 KMeans 初始化相关参数：init（推荐默认 k-means++）、n_init（多次初始化取 inertia 最优）与 random_state（复现用）。重点指出 scikit-learn 1.4+（2024 年）起 n_init 默认变为 auto 的重大变化，结合实战代码与错误速查表，帮助读者避坑。

2024/11/9

大数据-213 Python 手写 K-Means 聚类实战（鸢尾花 Iris 数据集）：从距离函数到迭代收敛与坑点

文章浏览阅读4.5k次，点赞14次，收藏22次。Python K-Means 聚类实现：基于 NumPy 广播计算欧式距离平方和（distEclud），在特征范围内均匀采样初始化质心（randCent），并使用 Pandas 统一容器 result_set 记录「最短距离/当前簇/上次簇」，通过簇编号是否变化判断收敛，最终输出 centroids 与分簇结果。示例数据采用 Iris（鸢尾花）数据集（iris.txt）。工程化落地时重点关注：特征量纲统一（标准化/归一化）、随机种子与最大迭代次数、空簇导致质心数量缩减、groupby().mean()

2024/11/8

大数据-214 K-Means 聚类实战：自写算法验证 + sklearn KMeans 参数/labels_/fit_predict 速通

文章浏览阅读5.4k次，点赞22次，收藏18次。K-Means 聚类给出一套「可验证、可复现、可排错」的工程化流程：先用二维 testSet 数据集做算法验证（pd.read_table 读取、追加虚拟标签列、plt.scatter 可视化、绘制质心与聚类结果），再切换到 sklearn.cluster.KMeans 进行参数级理解与对照。核心关键词覆盖：K-Means、sklearn KMeans、n_clusters、init、n_init、max_iter、tol、labels_、predict、fit_predict、make_blobs、聚类

2024/11/8

大数据-211 逻辑回归的 Scikit-Learn 实现：max_iter、分类方式与多元回归的优化方法

文章浏览阅读4.4k次，点赞10次，收藏19次。Scikit-Learn 中使用逻辑回归时，max_iter 控制最大迭代次数，影响模型的收敛速度和精度。如果训练未收敛，可能会收到警告提示需要增大 max_iter。不过，过高的迭代次数可能导致过拟合，影响测试集的表现。在二元逻辑回归中，multi_class 参数的选择也至关重要。OvR（One-vs-Rest）适用于大多数数据集，而 multinomial（多类）则适合需要更精确分类的场景。

2024/11/7

大数据-212 K-Means 聚类实战指南：从无监督概念到 Inertia、K 值选择与避坑

文章浏览阅读5.8k次，点赞39次，收藏17次。聚类算法 K-Means，梳理监督学习与无监督学习的差异（是否需要标签 Y），并给出聚类在客户细分、RFM 分析、图像/语音/视频压缩、异常检测等工程场景的落地路径。重点解释 K-Means 的关键概念「簇与质心」、迭代过程（分配样本→更新质心→收敛）、以及评价目标簇内误差平方和 Inertia。同时给出 K 值选择的工程方法（肘部法、轮廓系数、业务约束），并强调 K-Means 对初始化、尺度/量纲、离群点与非凸簇形状敏感。

2024/11/7

大数据-210 如何在Scikit-Learn中实现逻辑回归及正则化详解（L1与L2）

但随着C的逐渐变大，正则化的强度越来越小，模型在训练集和测试集上表现呈现了上升趋势，直到C=0.8左右，训练集上的表现依然走高，但模型在未知数据集上的表现就开始下跌，这时候就是出现了过拟合。正则化参数，LogisticRegression默认带了正则化项，penalty参数可选择的值有1和2，分别对应L1的正则化和L2的正则化，默认是L2的正则化。可以看出，当我们选择L1正则化的时候，许多特征的参数都被设置了0，这些特征在真正建模的时候，就不会出现在我们的模型当中了，而L2正则化是对所有特征都给出了参数。

2024/11/6

大数据-207 如何应对多重共线性：使用线性回归中的最小二乘法时常见问题与解决方案

scikit-learn 进行线性回归时，如何应对最小二乘法中的多重共线性问题。多重共线性可能导致回归模型的不稳定性，表现为参数估计值的不稳定、方差增大以及解的不唯一。文章详细介绍了多重共线性的成因及其影响，并提出了几种改进的回归方法，如岭回归、Lasso回归等。

2024/11/5

大数据-203 scikit-learn 决策树剪枝参数：max_depth/min_samples_leaf 到 min_impurity_decrease

scikit-learn 决策树剪枝（预剪枝）在工程落地中的常用参数：max_depth、min_samples_leaf、min_samples_split、max_features、min_impurity_decrease 与 class_weight，解释它们如何影响 DecisionTreeClassifier 的过拟合、树规模与泛化能力，并给出用学习曲线（score vs 超参数）确定近似最优值的操作路径。重点提示版本差异：min_impurity_decrease 自 0.19 引入，用于替代_决策树样本不均衡

2024/11/2

大数据-204 混淆矩阵到ROC：不平衡二分类评估指标全梳理 sklearn

混淆矩阵（TP、FP、FN、TN）建立统一口径，解释 Accuracy、Precision（查准率）、Recall（查全率/敏感度）、F1 Measure 的业务含义：Precision 对应"误伤多数类"的成本，Recall 对应"捕获少数类"的能力，F1 用调和平均惩罚短板；并给出 ROC 曲线的坐标含义（FPR 假正率、TPR 真正率/召回率）与 AUC 的使用边界。工程落地以 scikit-learn 1.8.0（2025-12 发布）为准，覆盖 sklearn.metrics.confusion

2024/11/2

大数据-201 决策树从分裂到剪枝：信息增益/增益率、连续变量与CART要点

"分裂"到"剪枝"的完整链路，解释其为何通常采用贪心算法形成"局部最优"，以及不同算法在分裂准则上的差异：ID3/C4.5偏信息增益（Information Gain），但信息增益会偏向取值多的特征，因此引入信息增益比/增益率（Gain Ratio）做修正；CART常用二叉递归划分，分类树用基尼系数（Gini）度量不纯度，回归树常用方差/均方误差类指标。

2024/11/1

大数据-202 sklearn 决策树实战：criterion、Graphviz 可视化与剪枝防过拟合

DecisionTreeClassifier 在 load_wine 数据集完成从数据拆分、建模评估到决策树可视化的完整流程（2026版）。重点解释 criterion 的选择：gini（基尼不纯度）、entropy 与 log_loss（信息增益/香农信息）在分裂质量度量上的差异，以及 splitter=best/random、random_state 对树结构稳定性的影响。可视化部分通过 sklearn.tree.export_graphviz 导出 DOT，并用 Python graphviz 包渲染

2024/11/1

大数据-196 scikit-learn KNN 实战：KNeighborsClassifier、kneighbors 与学习曲线选最优

从统一 API（fit/predict/transform/score）到 kneighbors 找出测试样本的 K 个最近邻，再到用学习曲线/参数曲线选择 n_neighbors（K 值）。重点说明：KNN 对数据尺度敏感，未标准化会导致距离度量失真；而仅靠一次 train_test_split 的最高分来定"最佳 K"在不同 random_state 下会波动，需用 StratifiedKFold 交叉验证配合 GridSearchCV/RandomizedSearchCV 才能稳定选参

2024/10/29