标签: mllib
共 8 篇文章
大数据-278 Spark MLlib - 基础介绍 机器学习算法 梯度提升树 GBDT案例 详解
GBDT 案例实战,手把手带你完成从残差计算到回归树构建与迭代训练的全过程,结合图示详细解析,最终预测精准输出!
大数据-276 Spark MLlib - 基础介绍 机器学习算法 Bagging和Boosting区别 GBDT梯度提升树
本文介绍了机器学习中Bagging与Boosting的区别,以及GBDT(梯度提升决策树)算法原理。主要内容包括:1)Bagging和Boosting在数据采样、投票方式、学习顺序和应用场景上的差异;2)GBDT的基本概念和使用CART回归树的原因;3)回归决策树的构建流程,包括最优切分点选择、区域划分和输出值计算;4)通过具体案例演示回归树的生成过程,包括损失函数计算和递归划分策略。
大数据-277 Spark MLlib - 基础介绍 机器学习算法 Gradient Boosting GBDT算法原理 高效实现
本文介绍了梯度提升树(GBDT)算法的原理与应用。首先通过通俗例子说明提升树的基本思想,然后详细解析算法流程,包括负梯度计算、回归树拟合和模型更新等关键步骤。文章比较了GBDT与传统提升树的区别,并阐述了GBDT在回归和分类问题中的优势。此外,还介绍了XGBoost、LightGBM等高效实现及其特性,分析了GBDT的适用场景和局限性。
大数据-275 Spark MLlib - 基础介绍 机器学习算法 集成学习 随机森林 Bagging Boosting
本文系统介绍了机器学习中的集成学习方法。主要内容包括:1)集成学习的基本定义与分类,通过结合多个模型提升预测性能;2)Bagging方法原理及应用,重点讲解随机森林的实现过程;3)Boosting方法的核心思想,包括Adaboost等算法的逐步增强机制。文章通过图示直观展示了不同集成学习技术的运作流程,比较了它们在解决欠拟合和过拟合问题上的作用。
大数据-274 Spark MLlib - 基础介绍 机器学习算法 剪枝 后剪枝 ID3 C4.5 CART
本文系统介绍了决策树的预剪枝与后剪枝原理,对比了ID3、C4.5和CART三种主流算法的核心差异,包括分裂标准、属性支持类型和剪枝方法。重点阐述了信息增益、信息增益率与基尼系数的计算原理,详细讲解了从树生成到剪枝的完整流程,并通过Spark MLlib中的Scala代码实例演示了决策树分类器的实现过程。
大数据-273 Spark MLlib - 基础介绍 机器学习算法 决策树 分类原则 分类原理 基尼系数 熵
本文介绍了决策树的基本概念、分类原则和分类原理。决策树是一种非线性有监督分类模型,通过树形结构进行属性判断和分类。分类时应选择能将数据分类更纯粹的节点作为根节点,减少树高和训练次数。分类原理涉及熵、条件熵、信息增益等概念:熵衡量信息混乱程度,信息增益反映分类前后熵的变化,基尼系数也可表示样本混乱程度。
大数据-272 Spark MLlib - 基础介绍 机器学习算法 逻辑回归
本文介绍了逻辑回归的基本原理、应用场景和在Spark MLlib中的实现。逻辑回归是一种高效二分类算法,广泛应用于广告点击率、垃圾邮件识别等领域。文章详细讲解了逻辑回归的输入函数、Sigmoid激活函数和损失计算方法,并通过糖尿病预测案例演示了如何使用Spark MLlib的LogisticRegressionWithSGD模块进行模型训练与评估。
大数据-271 Spark MLlib - 基础介绍 机器学习算法 线性回归 场景 定义 损失 优化
线性回归(Linear Regression)是利用回归方程(函数)对一个或多个自变量和因变量之间关系进行建模的一种分析方式。特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫做多元回归。