微光实验室 · 标签归档

标签: hdfs

共 30 篇文章，按主题汇总相关教程、案例、工程实践和阶段性总结。

大数据-243 离线数仓 - 实战电商核心交易增量导入（DataX - HDFS - Hive 分区）

场景：电商核心交易三张表做每日增量，落地离线数仓 ODS，按 dt 分区结论：DataX 用 MySQLReader + HDFSWriter，按时间字段抽取，HDFS 目录分区化，Hive 只做分区挂载产出：

2024/12/6

大数据-242 离线数仓 - DataX 实战：MySQL 全量/增量导入 HDFS + Hive 分区

DataX（mysqlreader + hdfswriter）将 MySQL 电商业务库按"全量/增量"两类策略抽取到 HDFS，并在 Hive 中以 dt=yyyy-mm-dd 进行分区管理。

2024/12/5

大数据-240 离线数仓广告业务 Hive ADS 实战：DataX 将 HDFS 分区表导出到 MySQL

使用 DataX 将 Hive ADS 层数据导出到 MySQL 的完整方案。涵盖 ADS 装载、DataX 配置、MySQL 建表、Shell 脚本参数化执行，以及常见报错定位与修复清单。

2024/12/3

大数据-239 离线数仓广告业务实战：Flume 导入日志到 HDFS，并完成 Hive ODS/DWD 分层加载

使用 Flume Agent 采集 event 日志并写入 HDFS，再通过 Hive 脚本按日期完成 ODS 层与 DWD 层的数据装载。内容覆盖 Flume Agent 的 Source、Channel、Sink 基本结构，日志文件上传...

2024/12/2

大数据-238 离线数仓广告业务 Hive 分析实战：ADS 点击率、购买率与 Top100 排名避坑

基于 Hive 离线数仓实现广告曝光、点击、购买的分时统计，完成点击率 CTR、购买率 CVR 与广告效果 Top100 排名分析。涵盖 ADS 层建表、分区装载、CASE WHEN 行转列、窗口函数排名等典型写法。

2024/11/30

大数据-237 离线数仓 Hive 广告业务实战：ODS→DWD 事件解析、广告明细与转化分析落地

Hive 离线数仓广告业务实战，结合 Flume + Hive + UDF + Parquet 的典型链路，演示如何将原始事件日志从 ODS 层映射到 Hive 外部表，再在 DWD 层完成事件明细拆解、广告行为过滤与广告宽表构建。

2024/11/29

大数据-236 离线数仓会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程

基于 Hadoop + Hive + HDFS + DataX + MySQL 的离线数仓实战，涵盖会员指标测试（活跃/新增/留存）、HDFS 导出、DataX 同步至 MySQL，以及广告业务 ODS/DWD/ADS 全流程建模。

2024/11/28

大数据-235 离线数仓实战：Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路

演示一套从日志采集到会员指标分析的完整链路，涵盖 Flume Taildir 监听、HDFS 分区存储、Hive 外部表加载、ODS/DWD/DWS/ADS 分层处理，支撑活跃会员、新增会员、会员留存等指标计算。

2024/11/27

大数据-234 离线数仓 Hive ADS 导出 MySQL DataX 实战配置与踩坑速查

离线数仓 ADS 层 Hive 表导出到 MySQL 的落地链路，给出 DataX 典型方案：hdfsreader → mysqlwriter。重点覆盖 DataX JSON 配置与常见报错修复。

2024/11/26

大数据-233 离线数仓留存率怎么做：DWS 明细建模 + ADS 聚合落表 Hive 脚本实战

离线数仓中“会员留存“的实现方法：DWS 层通过 dwsmemberretention_day 表关联新增与启动明细表计算 1/2/3 日留存；ADS 层构建留存数表与留存率表。包含完整 Hive 建表、装载脚本及常见错误排查。

2024/11/25

大数据-232 离线数仓 Hive 新增会员与留存计算：DWS 明细 + ADS 汇总一套跑通

离线数仓按天计算“新增会员”，并为后续“会员留存”提供口径一致的数据底座。用“全量会员表(含首日dt)”做去重锚点，DWS 产新增明细，ADS 产新增计数。

2024/11/23

大数据-231 离线数仓 Hive 实战：DWD 到 DWS 日周月活跃会员 ADS 指标落地脚本与坑点

本文介绍使用 Hive 构建离线数仓，统计活跃会员（日活/周活/月活）的完整流程，从 DWD 明细层到 DWS 汇总层再到 ADS 应用层，涵盖建表脚本、数据装载脚本及常见错误速查。

2024/11/22

大数据-230 离线数仓-ODS层的构建 Hive 2.3.7 JSON 解析实战：UDF 取数组 + explode/json_tuple

Hive 离线数仓中的 JSON 数据处理，覆盖三类最常见需求：1）从 JSON 串中取数组字段并在 SQL 中 explode 展开；2）从 JSON 串中同时解析普通字段（json_tuple）与数组字段（自定义 UDF）；

2024/11/21

大数据-229 离线数仓ODS 层实战：Hive 外部表分区加载与 JSON 解析（get_json_object）

离线数仓（2026）中 ODS（Operational Data Store）层的工程落地，给出 Hive 外部表（external table）+ 按天分区（partition dt）承接原始日志的最小闭环：

2024/11/20

大数据-228 离线数仓 Flume Taildir + 自定义 Interceptor：从 JSON 提取时间戳过滤

Apache Flume 的离线日志采集链路，给出一套工程化落地：使用 Taildir Source 监控多个目录与多文件正则匹配，为不同目录日志注入 logtype 等 Header

2024/11/19

大数据-227 离线数仓-Flume 1.9.0 自定义拦截器实战：TAILDIR 多目录采集，按 logtime 过滤

使用 TAILDIR Source 监控多个目录（start/event），通过 filegroups headers 为不同来源打上 logtype；再配合自定义 Interceptor 从日志正文解析业务时间...

2024/11/18

大数据-226 离线数仓 Flume 优化配置实战：batchSize/Channel/压缩/自定义拦截器与 OOM 处理

Flume 1.9.0 在离线数仓（日志采集→HDFS）场景的工程化优化：从 Source→Channel→Sink 全链路给出 batchSize、Memory/File Channel 的 capacity/transactionCap...

2024/11/16

大数据-225 离线数仓会员指标实战：Flume Taildir HDFS ODS/DWD/DWS/ADS 全链路落地

离线数仓建设，给出"日志采集→落地→分层→指标"的工程化路径。会员以设备唯一标识（Android IMEI / iOS OpenUDID）为口径，输出新增会员、活跃会员（DAU/WAU/MAU）与留存（次日/7日/30日）等核心指标。

2024/11/15

大数据-223 离线数仓怎么建：埋点→指标体系→主题分析任务，全链路落地指南

业务拆分（前台/运营后台/商家后台）→数据来源（启动/点击日志、下单/支付/退款等交易数据）→数据埋点（页面统计/操作统计、需求—采集—上报—清洗加工—入仓—分析—展示）→指标体系（准确/可解释/结构性、指标=基础指标+修饰词+时间段...

2024/11/14

大数据-224 离线数仓架构怎么选型与估算集群规模：Apache vs CDH/HDP，全组件清单+命名规范

离线数据仓库（离线数仓）总体架构设计与落地方法：框架选型对比 Apache 社区版与第三方发行版（CDH/HDP/FusionInsight），梳理数据采集（DataX/Flume/Sqoop/Logstash/Kafka）...

2024/11/14

大数据-221 离线数仓分层实战：ODS/DWD/DWS/DIM/ADS 怎么划，数据集如何避免数据孤岛

（Offline Data Warehouse）在企业落地时最常见的两类问题：数据集市扩张导致的数据孤岛、以及数仓分层边界不清导致的重复计算与口径混乱，给出可执行的工程化拆解。

2024/11/13

大数据-222 离线数仓建模实战：事实表/维度表、三类事实表与雪花/星座模型

离线数仓建模实践，系统梳理事实表（Fact Table）与维度表（Dimension Table）的核心概念、事实类型（可加/半可加/不可加）与粒度（交易/快照/累积快照）对查询性能与可分析性的决定性影响。

2024/11/13

大数据-19 Flume 采集 Hive 日志到 HDFS

使用 Flume exec source 实时追踪 Hive 日志文件，通过 memory channel 缓冲，配置 HDFS sink 按时间分区写入，实现日志数据自动落盘 HDFS。

2024/7/17

大数据-20 Flume 双 Sink：日志同时写入 HDFS 与本地文件

通过 Flume 复制模式（Replicating Channel Selector）和三 Agent 级联架构，实现一份日志数据同时写入 HDFS 和本地文件，满足离线分析与实时备份双重需求。

2024/7/17

大数据-09 HDFS Java Client 实战：上传下载文件、目录扫描

使用 Hadoop HDFS Java Client API 进行文件操作：Maven 依赖配置、FileSystem/Path/Configuration 核心类，实现文件上传、下载、删除、列表扫描和进度条显示。

2024/7/3

大数据-07 HDFS 分布式文件系统读写原理详解

深入解析 HDFS 架构：NameNode、DataNode、Client 角色分工，Block 存储机制，文件读写流程（Pipeline 写入与就近读取），以及 HDFS 基础命令速查。

2024/7/2

大数据-08 HDFS 命令行实操 hadoop fs 完整命令详解

HDFS 命令行完整实操：hadoop fs 常用命令速查，包括目录操作、文件上传下载、权限管理，结合三节点集群实际演示。

2024/7/2

大数据-05 Hadoop集群 WordCount 分布式计算实战

在 Hadoop 集群上完整执行 WordCount：上传文件到 HDFS、提交 MapReduce 任务、通过 YARN UI 查看运行状态，验证真正的分布式计算。

2024/7/1

大数据-04 Hadoop集群群起 NameNode DataNode YARN 启动与 Web UI 验证

Hadoop 三节点集群完整启动流程：格式化 NameNode、启动 HDFS 和 YARN，通过 Web UI 验证集群状态，含 start-dfs.sh 和 start-yarn.sh 用法。

2024/6/30

大数据-02 Hadoop集群 XML配置详解 core-site hdfs-site mapred-site yarn-site

详解 Hadoop 集群三节点 XML 配置文件：core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml，含 NameNode、DataNode...

2024/6/28