标签: decision-tree

共 5 篇文章

大数据-203 scikit-learn 决策树剪枝参数:max_depth/min_samples_leaf 参数调优

场景:DecisionTreeClassifier 过拟合、树太大/内存飙升、样本不均衡需要可控剪枝与权重 结论:优先用 maxdepth + minsamplesleaf 做基线

大数据-201 决策树从分裂到剪枝:信息增益/增益率、连续变量与CART要点

"分裂"到"剪枝"的完整链路,解释其为何通常采用贪心算法形成"局部最优",以及不同算法在分裂准则上的差异:ID3/C4.5偏信息增益(Information Gain),但信息增益会偏向取值多的特征,因此引入信息增益比/增益率(Gain R...

大数据-202 sklearn 决策树实战:criterion、Graphviz 可视化与剪枝防过拟合

DecisionTreeClassifier 在 loadwine 数据集完成从数据拆分、建模评估到决策树可视化的完整流程(2026版)。重点解释 criterion 的选择:gini(基尼不纯度)、entropy 与 logloss(信息...

大数据-199 决策树模型详解:节点结构、条件概率视角与香农熵计算

决策树模型(Decision Tree)面向分类任务系统梳理:树的三类节点(根节点/内部节点/叶节点)、从根到叶的递归分裂流程,以及"分而治之"的规则生成机制。理论层面给出决策树的条件概率分布视角:

大数据-200 决策树信息增益详解:信息熵、ID3 选特征与 Python 最佳切分实现

决策树信息增益(Information Gain)展开,先用信息熵(Entropy)解释不纯度,再说明为何在节点切分时要最大化父节点熵与子节点熵之差:在 Ent(D) 固定的前提下,最大化 Gain 等价于最小化分支不纯度的加权平均...