标签: scala

共 34 篇文章

大数据-278 Spark MLlib - 基础介绍机器学习算法梯度提升树 GBDT案例详解

GBDT 案例实战，手把手带你完成从残差计算到回归树构建与迭代训练的全过程，结合图示详细解析，最终预测精准输出！

2025/6/4

大数据-276 Spark MLlib - 基础介绍机器学习算法 Bagging和Boosting区别 GBDT梯度提升树

本文介绍了机器学习中Bagging与Boosting的区别，以及GBDT（梯度提升决策树）算法原理。主要内容包括：1）Bagging和Boosting在数据采样、投票方式、学习顺序和应用场景上的差异；2）GBDT的基本概念和使用CART回归树的原因；3）回归决策树的构建流程，包括最优切分点选择、区域划分和输出值计算；4）通过具体案例演示回归树的生成过程，包括损失函数计算和递归划分策略。

2025/6/3

大数据-277 Spark MLlib - 基础介绍机器学习算法 Gradient Boosting GBDT算法原理高效实现

本文介绍了梯度提升树（GBDT）算法的原理与应用。首先通过通俗例子说明提升树的基本思想，然后详细解析算法流程，包括负梯度计算、回归树拟合和模型更新等关键步骤。文章比较了GBDT与传统提升树的区别，并阐述了GBDT在回归和分类问题中的优势。此外，还介绍了XGBoost、LightGBM等高效实现及其特性，分析了GBDT的适用场景和局限性。

2025/6/3

大数据-275 Spark MLlib - 基础介绍机器学习算法集成学习随机森林 Bagging Boosting

本文系统介绍了机器学习中的集成学习方法。主要内容包括：1)集成学习的基本定义与分类，通过结合多个模型提升预测性能；2)Bagging方法原理及应用，重点讲解随机森林的实现过程；3)Boosting方法的核心思想，包括Adaboost等算法的逐步增强机制。文章通过图示直观展示了不同集成学习技术的运作流程，比较了它们在解决欠拟合和过拟合问题上的作用。

2025/6/2

大数据-274 Spark MLlib - 基础介绍机器学习算法剪枝后剪枝 ID3 C4.5 CART

本文系统介绍了决策树的预剪枝与后剪枝原理，对比了ID3、C4.5和CART三种主流算法的核心差异，包括分裂标准、属性支持类型和剪枝方法。重点阐述了信息增益、信息增益率与基尼系数的计算原理，详细讲解了从树生成到剪枝的完整流程，并通过Spark MLlib中的Scala代码实例演示了决策树分类器的实现过程。

2025/5/29

大数据-273 Spark MLlib - 基础介绍机器学习算法决策树分类原则分类原理基尼系数熵

本文介绍了决策树的基本概念、分类原则和分类原理。决策树是一种非线性有监督分类模型，通过树形结构进行属性判断和分类。分类时应选择能将数据分类更纯粹的节点作为根节点，减少树高和训练次数。分类原理涉及熵、条件熵、信息增益等概念：熵衡量信息混乱程度，信息增益反映分类前后熵的变化，基尼系数也可表示样本混乱程度。

2025/5/28

大数据-272 Spark MLlib - 基础介绍机器学习算法逻辑回归

本文介绍了逻辑回归的基本原理、应用场景和在Spark MLlib中的实现。逻辑回归是一种高效二分类算法，广泛应用于广告点击率、垃圾邮件识别等领域。文章详细讲解了逻辑回归的输入函数、Sigmoid激活函数和损失计算方法，并通过糖尿病预测案例演示了如何使用Spark MLlib的LogisticRegressionWithSGD模块进行模型训练与评估。

2025/5/27

大数据-271 Spark MLlib - 基础介绍机器学习算法线性回归场景定义损失优化

线性回归（Linear Regression）是利用回归方程（函数）对一个或多个自变量和因变量之间关系进行建模的一种分析方式。特点：只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归。

2025/4/11

大数据-268 实时数仓 - ODS层将 Kafka 中的维度表写入 DIM

在 Kafka 中写入维度表（DIM）通常涉及将实时或批处理数据从 Kafka 主题读取，并根据数据流中的信息更新维度表。维度表存储与业务数据相关的维度信息，如客户、产品、地理位置等，用于支持 OLAP 查询。

2025/1/3

大数据-269 实时数仓 - DIM DW ADS 层处理 Scala实现将数据写出HBase等

DW（Data WareHouse 数据仓库层），包含 DWD、DWS、DIM 层数据加工而成，主要完成数据架构与整合，建立一致性的维度，构建可复用的面向分析和统计的明细事实表，以及汇总公共粒度的指标。基于 DW 数据，整合汇总成主题域的服务数据，用于提供后续的业务查询等。在分析交易过程时，可以通过卖家、买家、商品和时间等维度描述交易发生的环境，所以维度的作用一般是查询约束、分类汇总以及排序等。转换 area 表到地区ID、地区的名字、城市ID、城市的名字、省份 ID、省份的名字到 HBase 中。

2025/1/3

大数据-266 实时数仓 - Canal 对接 Kafka 客户端测试

本文介绍了阿里巴巴开源的Canal工具，它通过解析MySQL的binlog实现数据库变更的数据捕获(CDC)。文章展示了如何将Canal与Kafka集成，实现数据库变更到消息队列的实时推送，包含INSERT、UPDATE、DELETE操作的JSON格式示例。

2025/1/2

大数据-267 实时数仓 - ODS Lambda架构 Kappa架构核心思想

在互联网企业中，常见的 ODS 数据有业务日志数据（Log）和业务 DB 数据两类，对于业务 DB 数据来说，从 MySQL 等关系型数据库的业务数据进行采集，然后导入到 Hive 中，是进行数据仓库生产的重要环节。它的作用是存储大量的结构化数据，并能进行频繁和可重复的分析。为了彻底解决这些问题，我们逐步实时 binlog 采集进行实时处理，binlog 是 MySQL的二进制日志，记录了 MySQL 中发生的所有数据的变化，MySQL 集群自身的主从同步就是基于 binlog 做的。

2025/1/2

大数据-265 实时数仓 - Canal 部署安装启动服务常见问题解决

Canal 是阿里巴巴开源的数据同步工具，用于 MySQL 数据库的增量日志解析和同步。它模拟 MySQL 从库协议，获取主库的 binlog 日志，从而实现实时数据捕获和传输，常用于数据迁移、缓存更新和搜索引擎同步等场景。Canal 集群模式通常结合 ZooKeeper 实现分布式协调，保证高可用性和负载均衡。

2024/12/31

大数据-263 实时数仓 - Canal 工作原理工作流程 MySQL Binlog基本介绍

Canal 是一款用于 MySQL 数据库 binlog 增量订阅和消费的开源工具。它主要用于解决数据同步和分布式事务问题，支持将数据库变更同步到其他系统中，比如消息队列、大数据平台等。Master 主库将改变记录写进二进制 binary log 中Slave 从库向 MySQL Master 发送 DUMP 协议，将 Master 主库的 binary log events 拷贝到它的中继日志（relay log）。Slave 从库读取并重做中继日志中的事件，将改变的数据同步到自己的数据库。

2024/12/30

大数据-264 实时数仓 - Canal MySQL的binlog研究存储目录变动信息配置MySQL

MySQL 的二进制日志（Binary Log，简称 binlog）是 MySQL 数据库中的一种日志文件类型，它记录了对数据库执行的所有更改操作（不包括 SELECT 和 SHOW 等查询操作）。它主要用于数据恢复、复制和审计等场景。

2024/12/30

大数据-262 实时数仓 - Canal 同步数据介绍背景原理与优势拉链表实时统计

阿里巴巴 B2B 公司，由于业务的特性，卖家主要集中在国内，买家主要集中在国外，所以衍生出了杭州和美国异地机房的需求，从 2010 年开始，阿里系公司开始逐步的尝试基于数据库的日志解析，获取增量变更进行同步，由此衍生出了增量订阅、消费的业务。Canal是用 Java 开发的基于数据库增量日志解析，提供增量数据订阅、消费的中间件。目前，Canal主要支持了 MySQL 的 Binlog 解析，解析完成后才利用 Canal Client 用来处理获得相关数据。

2024/12/29