标签: datax
共 8 篇文章
大数据-243 离线数仓 - 实战电商核心交易增量导入(DataX - HDFS - Hive 分区)
使用 DataX(MySQLReader + HDFSWriter)从 MySQL 抽取订单表、订单明细表、产品信息表的日增量数据,落地到 HDFS,并以 dt=yyyy-MM-dd 目录实现分区化存储,后续通过 Hive alter table ... add partition 完成 ODS 分区挂载。核心指标覆盖订单数、商品数、支付金额。
大数据-242 离线数仓 - DataX 实战:MySQL 全量/增量导入 HDFS + Hive 分区
文章浏览阅读6k次,点赞22次,收藏14次。DataX(mysqlreader + hdfswriter)将 MySQL 电商业务库按"全量/增量"两类策略抽取到 HDFS,并在 Hive 中以 dt=yyyy-mm-dd 进行分区管理。针对维表/小表(如商品分类、店铺、组织、支付方式)采用每日全量导出形成新分区;针对事实表/大表(订单、订单商品、商品信息)基于可区分每日新增的字段执行增量抽取。
大数据-240 离线数仓 广告业务 Hive ADS 实战:DataX 将 HDFS 分区表导出到 MySQL
使用 DataX 将 Hive ADS 层数据导出到 MySQL 的完整方案。涵盖 ADS 装载、DataX 配置、MySQL 建表、Shell 脚本参数化执行,以及常见报错定位与修复清单。
大数据-236 离线数仓 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
基于 Hadoop + Hive + HDFS + DataX + MySQL 的离线数仓实战,涵盖会员指标测试(活跃/新增/留存)、HDFS 导出、DataX 同步至 MySQL,以及广告业务 ODS/DWD/ADS 全流程建模。
大数据-234 离线数仓 Hive ADS 导出 MySQL DataX 实战配置与踩坑速查
离线数仓 ADS 层 Hive 表导出到 MySQL 的落地链路,给出 DataX 典型方案:hdfsreader → mysqlwriter。重点覆盖 DataX JSON 配置与常见报错修复。
大数据-232 离线数仓 Hive 新增会员与留存计算:DWS 明细 + ADS 汇总一套跑通
离线数仓按天计算“新增会员”,并为后续“会员留存”提供口径一致的数据底座。用“全量会员表(含首日dt)”做去重锚点,DWS 产新增明细,ADS 产新增计数。
大数据-231 离线数仓 Hive 实战:DWD 到 DWS 日周月活跃会员 ADS 指标落地脚本与坑点
本文介绍使用 Hive 构建离线数仓,统计活跃会员(日活/周活/月活)的完整流程,从 DWD 明细层到 DWS 汇总层再到 ADS 应用层,涵盖建表脚本、数据装载脚本及常见错误速查。
大数据-192 DataX 3.0 架构与实战:Reader/Writer 插件模型、Job/TaskGroup 调度、speed/errorLimit 配置速通
DataX(DataX 3.0)是阿里体系广泛使用并开源的离线数据同步/数据集成工具,面向企业级异构数据源同步(MySQL、Oracle、SQLServer、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等)。它以 Framework + Reader/Writer 插件模型抽象"读—传—写",新增数据源主要通过插件接入而不是重连全链路