标签: decision-tree

共 5 篇文章

大数据-203 scikit-learn 决策树剪枝参数:max_depth/min_samples_leaf 到 min_impurity_decrease

scikit-learn 决策树剪枝(预剪枝)在工程落地中的常用参数:max_depth、min_samples_leaf、min_samples_split、max_features、min_impurity_decrease 与 class_weight,解释它们如何影响 DecisionTreeClassifier 的过拟合、树规模与泛化能力,并给出用学习曲线(score vs 超参数)确定近似最优值的操作路径。重点提示版本差异:min_impurity_decrease 自 0.19 引入,用于替代_决策树 样本不均衡

大数据-201 决策树从分裂到剪枝:信息增益/增益率、连续变量与CART要点

"分裂"到"剪枝"的完整链路,解释其为何通常采用贪心算法形成"局部最优",以及不同算法在分裂准则上的差异:ID3/C4.5偏信息增益(Information Gain),但信息增益会偏向取值多的特征,因此引入信息增益比/增益率(Gain Ratio)做修正;CART常用二叉递归划分,分类树用基尼系数(Gini)度量不纯度,回归树常用方差/均方误差类指标。

大数据-202 sklearn 决策树实战:criterion、Graphviz 可视化与剪枝防过拟合

DecisionTreeClassifier 在 load_wine 数据集完成从数据拆分、建模评估到决策树可视化的完整流程(2026版)。重点解释 criterion 的选择:gini(基尼不纯度)、entropy 与 log_loss(信息增益/香农信息)在分裂质量度量上的差异,以及 splitter=best/random、random_state 对树结构稳定性的影响。可视化部分通过 sklearn.tree.export_graphviz 导出 DOT,并用 Python graphviz 包渲染

大数据-199 决策树模型详解:节点结构、条件概率视角与香农熵计算

决策树模型(Decision Tree)面向分类任务系统梳理:树的三类节点(根节点/内部节点/叶节点)、从根到叶的递归分裂流程,以及"分而治之"的规则生成机制。理论层面给出决策树的条件概率分布视角:特征空间被划分为互不重叠区域 R_j,叶节点估计 P(Y|X∈R_j),预测时用 MAP 选择概率最大的类别

大数据-200 决策树信息增益详解:信息熵、ID3 选特征与 Python 最佳切分实现

决策树信息增益(Information Gain)展开,先用信息熵(Entropy)解释不纯度,再说明为何在节点切分时要最大化父节点熵与子节点熵之差:在 Ent(D) 固定的前提下,最大化 Gain 等价于最小化分支不纯度的加权平均,从而得到局部最优切分