标签: sklearn

共 13 篇文章

大数据-215 sklearn KMeans 关键属性与评估：cluster_centers_、inertia_、与指标选 K

场景：用 sklearn 做 KMeans 聚类，想解释中心点/损失，并用指标选 K。

KMeans 选 nclusters 方法：在候选簇数（如 2/4/6/8）上计算 silhouettescore 与 silhouette_samples，结合轮廓系数分布图与聚类散点图判断最优。

Python K-Means 聚类实现：基于 NumPy 广播计算欧式距离平方和（distEclud），在特征范围内均匀采样初始化质心（randCent），并使用 Pandas 统一容器 result_set 记录「最短距离/当前簇/上次簇...

K-Means 聚类给出一套「可验证、可复现、可排错」的工程化流程：先用二维 testSet 数据集做算法验证（pd.read_table 读取、追加虚拟标签列、plt.scatter 可视化、绘制质心与聚类结果）...

Scikit-Learn 中使用逻辑回归时，maxiter 控制最大迭代次数，影响模型的收敛速度和精度。如果训练未收敛，可能会收到警告提示需要增大 maxiter。不过，过高的迭代次数可能导致过拟合，影响测试集的表现。

聚类算法 K-Means，梳理监督学习与无监督学习的差异（是否需要标签 Y），并给出聚类在客户细分、RFM 分析、图像/语音/视频压缩、异常检测等工程场景的落地路径。重点解释 K-Means 的关键概念「簇与质心」...

但随着C的逐渐变大，正则化的强度越来越小，模型在训练集和测试集上表现呈现了上升趋势，直到C=0.8左右，训练集上的表现依然走高，但模型在未知数据集上的表现就开始下跌，这时候就是出现了过拟合。正则化参数，LogisticRegression默...

scikit-learn 进行线性回归时，如何应对最小二乘法中的多重共线性问题。多重共线性可能导致回归模型的不稳定性，表现为参数估计值的不稳定、方差增大以及解的不唯一。文章详细介绍了多重共线性的成因及其影响，并提出了几种改进的回归方法...

场景：DecisionTreeClassifier 过拟合、树太大/内存飙升、样本不均衡需要可控剪枝与权重结论：优先用 maxdepth + minsamplesleaf 做基线

混淆矩阵（TP、FP、FN、TN）建立统一口径，解释 Accuracy、Precision（查准率）、Recall（查全率/敏感度）、F1 Measure 的业务含义：Precision 对应"误伤多数类"的成本...

"分裂"到"剪枝"的完整链路，解释其为何通常采用贪心算法形成"局部最优"，以及不同算法在分裂准则上的差异：ID3/C4.5偏信息增益（Information Gain），但信息增益会偏向取值多的特征，因此引入信息增益比/增益率（Gain R...

DecisionTreeClassifier 在 loadwine 数据集完成从数据拆分、建模评估到决策树可视化的完整流程（2026版）。重点解释 criterion 的选择：gini（基尼不纯度）、entropy 与 logloss（信息...

从统一 API（fit/predict/transform/score）到 kneighbors 找出测试样本的 K 个最近邻，再到用学习曲线/参数曲线选择 nneighbors（K 值）。重点说明：