标签: sklearn
共 13 篇文章
大数据-215 sklearn KMeans 关键属性与评估:cluster_centers_、inertia_、与指标选 K
场景:用 sklearn 做 KMeans 聚类,想解释中心点/损失,并用指标选 K。
大数据-216 KMeans 选 n_clusters:轮廓系数(Silhouette)实战 + init/n_init/max_iter 参数调优
KMeans 选 nclusters 方法:在候选簇数(如 2/4/6/8)上计算 silhouettescore 与 silhouette_samples,结合轮廓系数分布图与聚类散点图判断最优。
大数据-213 Python 手写 K-Means 聚类实战(鸢尾花 Iris 数据集):从距离函数到迭代收敛与坑点
Python K-Means 聚类实现:基于 NumPy 广播计算欧式距离平方和(distEclud),在特征范围内均匀采样初始化质心(randCent),并使用 Pandas 统一容器 result_set 记录「最短距离/当前簇/上次簇...
大数据-214 K-Means 聚类实战:自写算法验证 + sklearn KMeans 参数/labels_/fit_predict 验证
K-Means 聚类给出一套「可验证、可复现、可排错」的工程化流程:先用二维 testSet 数据集做算法验证(pd.read_table 读取、追加虚拟标签列、plt.scatter 可视化、绘制质心与聚类结果)...
大数据-211 逻辑回归的 Scikit-Learn 实现:max_iter、分类方式与多元回归的优化方法
Scikit-Learn 中使用逻辑回归时,maxiter 控制最大迭代次数,影响模型的收敛速度和精度。如果训练未收敛,可能会收到警告提示需要增大 maxiter。不过,过高的迭代次数可能导致过拟合,影响测试集的表现。
大数据-212 K-Means 聚类实战指南:从无监督概念到 Inertia、K 值选择与避坑
聚类算法 K-Means,梳理监督学习与无监督学习的差异(是否需要标签 Y),并给出聚类在客户细分、RFM 分析、图像/语音/视频压缩、异常检测等工程场景的落地路径。重点解释 K-Means 的关键概念「簇与质心」...
大数据-210 如何在Scikit-Learn中实现逻辑回归及正则化详解(L1与L2)
但随着C的逐渐变大,正则化的强度越来越小,模型在训练集和测试集上表现呈现了上升趋势,直到C=0.8左右,训练集上的表现依然走高,但模型在未知数据集上的表现就开始下跌,这时候就是出现了过拟合。正则化参数,LogisticRegression默...
大数据-207 如何应对多重共线性:使用线性回归中的最小二乘法时常见问题与解决方案
scikit-learn 进行线性回归时,如何应对最小二乘法中的多重共线性问题。多重共线性可能导致回归模型的不稳定性,表现为参数估计值的不稳定、方差增大以及解的不唯一。文章详细介绍了多重共线性的成因及其影响,并提出了几种改进的回归方法...
大数据-203 scikit-learn 决策树剪枝参数:max_depth/min_samples_leaf 参数调优
场景:DecisionTreeClassifier 过拟合、树太大/内存飙升、样本不均衡需要可控剪枝与权重 结论:优先用 maxdepth + minsamplesleaf 做基线
大数据-204 混淆矩阵到ROC:不平衡二分类评估指标全梳理 sklearn
混淆矩阵(TP、FP、FN、TN)建立统一口径,解释 Accuracy、Precision(查准率)、Recall(查全率/敏感度)、F1 Measure 的业务含义:Precision 对应"误伤多数类"的成本...
大数据-201 决策树从分裂到剪枝:信息增益/增益率、连续变量与CART要点
"分裂"到"剪枝"的完整链路,解释其为何通常采用贪心算法形成"局部最优",以及不同算法在分裂准则上的差异:ID3/C4.5偏信息增益(Information Gain),但信息增益会偏向取值多的特征,因此引入信息增益比/增益率(Gain R...
大数据-202 sklearn 决策树实战:criterion、Graphviz 可视化与剪枝防过拟合
DecisionTreeClassifier 在 loadwine 数据集完成从数据拆分、建模评估到决策树可视化的完整流程(2026版)。重点解释 criterion 的选择:gini(基尼不纯度)、entropy 与 logloss(信息...
大数据-196 scikit-learn KNN 实战:KNeighborsClassifier、kneighbors 最近邻与学习曲线选择
从统一 API(fit/predict/transform/score)到 kneighbors 找出测试样本的 K 个最近邻,再到用学习曲线/参数曲线选择 nneighbors(K 值)。重点说明: