标签: datax

共 8 篇文章

大数据-243 离线数仓 - 实战电商核心交易增量导入（DataX - HDFS - Hive 分区）

使用 DataX（MySQLReader + HDFSWriter）从 MySQL 抽取订单表、订单明细表、产品信息表的日增量数据，落地到 HDFS，并以 dt=yyyy-MM-dd 目录实现分区化存储，后续通过 Hive alter table ... add partition 完成 ODS 分区挂载。核心指标覆盖订单数、商品数、支付金额。

2024/12/6

大数据-242 离线数仓 - DataX 实战：MySQL 全量/增量导入 HDFS + Hive 分区

文章浏览阅读6k次，点赞22次，收藏14次。DataX（mysqlreader + hdfswriter）将 MySQL 电商业务库按"全量/增量"两类策略抽取到 HDFS，并在 Hive 中以 dt=yyyy-mm-dd 进行分区管理。针对维表/小表（如商品分类、店铺、组织、支付方式）采用每日全量导出形成新分区；针对事实表/大表（订单、订单商品、商品信息）基于可区分每日新增的字段执行增量抽取。

2024/12/5

大数据-240 离线数仓广告业务 Hive ADS 实战：DataX 将 HDFS 分区表导出到 MySQL

使用 DataX 将 Hive ADS 层数据导出到 MySQL 的完整方案。涵盖 ADS 装载、DataX 配置、MySQL 建表、Shell 脚本参数化执行，以及常见报错定位与修复清单。

2024/12/3

大数据-236 离线数仓会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程

基于 Hadoop + Hive + HDFS + DataX + MySQL 的离线数仓实战，涵盖会员指标测试（活跃/新增/留存）、HDFS 导出、DataX 同步至 MySQL，以及广告业务 ODS/DWD/ADS 全流程建模。

2024/11/28

大数据-234 离线数仓 Hive ADS 导出 MySQL DataX 实战配置与踩坑速查

离线数仓 ADS 层 Hive 表导出到 MySQL 的落地链路，给出 DataX 典型方案：hdfsreader → mysqlwriter。重点覆盖 DataX JSON 配置与常见报错修复。

2024/11/26

大数据-232 离线数仓 Hive 新增会员与留存计算：DWS 明细 + ADS 汇总一套跑通

离线数仓按天计算“新增会员”，并为后续“会员留存”提供口径一致的数据底座。用“全量会员表(含首日dt)”做去重锚点，DWS 产新增明细，ADS 产新增计数。

2024/11/23

大数据-231 离线数仓 Hive 实战：DWD 到 DWS 日周月活跃会员 ADS 指标落地脚本与坑点

本文介绍使用 Hive 构建离线数仓，统计活跃会员（日活/周活/月活）的完整流程，从 DWD 明细层到 DWS 汇总层再到 ADS 应用层，涵盖建表脚本、数据装载脚本及常见错误速查。

2024/11/22

大数据-192 DataX 3.0 架构与实战：Reader/Writer 插件模型、Job/TaskGroup 调度、speed/errorLimit 配置速通

DataX（DataX 3.0）是阿里体系广泛使用并开源的离线数据同步/数据集成工具，面向企业级异构数据源同步（MySQL、Oracle、SQLServer、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等）。它以 Framework + Reader/Writer 插件模型抽象"读—传—写"，新增数据源主要通过插件接入而不是重连全链路

2024/10/26