标签: decision-tree

共 5 篇文章

大数据-203 scikit-learn 决策树剪枝参数：max_depth/min_samples_leaf 到 min_impurity_decrease

scikit-learn 决策树剪枝（预剪枝）在工程落地中的常用参数：max_depth、min_samples_leaf、min_samples_split、max_features、min_impurity_decrease 与 class_weight，解释它们如何影响 DecisionTreeClassifier 的过拟合、树规模与泛化能力，并给出用学习曲线（score vs 超参数）确定近似最优值的操作路径。重点提示版本差异：min_impurity_decrease 自 0.19 引入，用于替代_决策树样本不均衡

2024/11/2

大数据-201 决策树从分裂到剪枝：信息增益/增益率、连续变量与CART要点

"分裂"到"剪枝"的完整链路，解释其为何通常采用贪心算法形成"局部最优"，以及不同算法在分裂准则上的差异：ID3/C4.5偏信息增益（Information Gain），但信息增益会偏向取值多的特征，因此引入信息增益比/增益率（Gain Ratio）做修正；CART常用二叉递归划分，分类树用基尼系数（Gini）度量不纯度，回归树常用方差/均方误差类指标。

2024/11/1

大数据-202 sklearn 决策树实战：criterion、Graphviz 可视化与剪枝防过拟合

DecisionTreeClassifier 在 load_wine 数据集完成从数据拆分、建模评估到决策树可视化的完整流程（2026版）。重点解释 criterion 的选择：gini（基尼不纯度）、entropy 与 log_loss（信息增益/香农信息）在分裂质量度量上的差异，以及 splitter=best/random、random_state 对树结构稳定性的影响。可视化部分通过 sklearn.tree.export_graphviz 导出 DOT，并用 Python graphviz 包渲染

2024/11/1

大数据-199 决策树模型详解：节点结构、条件概率视角与香农熵计算

决策树模型（Decision Tree）面向分类任务系统梳理：树的三类节点（根节点/内部节点/叶节点）、从根到叶的递归分裂流程，以及"分而治之"的规则生成机制。理论层面给出决策树的条件概率分布视角：特征空间被划分为互不重叠区域 R_j，叶节点估计 P(Y|X∈R_j)，预测时用 MAP 选择概率最大的类别

2024/10/31

大数据-200 决策树信息增益详解：信息熵、ID3 选特征与 Python 最佳切分实现

决策树信息增益（Information Gain）展开，先用信息熵（Entropy）解释不纯度，再说明为何在节点切分时要最大化父节点熵与子节点熵之差：在 Ent(D) 固定的前提下，最大化 Gain 等价于最小化分支不纯度的加权平均，从而得到局部最优切分

2024/10/31