标签: datax

共 8 篇文章

大数据-243 离线数仓 - 实战电商核心交易增量导入(DataX - HDFS - Hive 分区)

场景:电商核心交易三张表做每日增量,落地离线数仓 ODS,按 dt 分区 结论:DataX 用 MySQLReader + HDFSWriter,按时间字段抽取,HDFS 目录分区化,Hive 只做分区挂载 产出:

大数据-242 离线数仓 - DataX 实战:MySQL 全量/增量导入 HDFS + Hive 分区

DataX(mysqlreader + hdfswriter)将 MySQL 电商业务库按"全量/增量"两类策略抽取到 HDFS,并在 Hive 中以 dt=yyyy-mm-dd 进行分区管理。

大数据-240 离线数仓 广告业务 Hive ADS 实战:DataX 将 HDFS 分区表导出到 MySQL

使用 DataX 将 Hive ADS 层数据导出到 MySQL 的完整方案。涵盖 ADS 装载、DataX 配置、MySQL 建表、Shell 脚本参数化执行,以及常见报错定位与修复清单。

大数据-236 离线数仓 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程

基于 Hadoop + Hive + HDFS + DataX + MySQL 的离线数仓实战,涵盖会员指标测试(活跃/新增/留存)、HDFS 导出、DataX 同步至 MySQL,以及广告业务 ODS/DWD/ADS 全流程建模。

大数据-234 离线数仓 Hive ADS 导出 MySQL DataX 实战配置与踩坑速查

离线数仓 ADS 层 Hive 表导出到 MySQL 的落地链路,给出 DataX 典型方案:hdfsreader → mysqlwriter。重点覆盖 DataX JSON 配置与常见报错修复。

大数据-232 离线数仓 Hive 新增会员与留存计算:DWS 明细 + ADS 汇总一套跑通

离线数仓按天计算“新增会员”,并为后续“会员留存”提供口径一致的数据底座。用“全量会员表(含首日dt)”做去重锚点,DWS 产新增明细,ADS 产新增计数。

大数据-231 离线数仓 Hive 实战:DWD 到 DWS 日周月活跃会员 ADS 指标落地脚本与坑点

本文介绍使用 Hive 构建离线数仓,统计活跃会员(日活/周活/月活)的完整流程,从 DWD 明细层到 DWS 汇总层再到 ADS 应用层,涵盖建表脚本、数据装载脚本及常见错误速查。

大数据-192 DataX 3.0 架构与实战:Reader/Writer 插件模型、Job/TaskGroup 调度

DataX(DataX 3.0)是阿里体系广泛使用并开源的离线数据同步/数据集成工具,面向企业级异构数据源同步(MySQL、Oracle、SQLServer、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等)。