标签: flume

共 17 篇文章

大数据-239 离线数仓广告业务实战：Flume 导入日志到 HDFS，并完成 Hive ODS/DWD 分层加载

使用 Flume Agent 采集 event 日志并写入 HDFS，再通过 Hive 脚本按日期完成 ODS 层与 DWD 层的数据装载。内容覆盖 Flume Agent 的 Source、Channel、Sink 基本结构，日志文件上传、Flume 启动命令、HDFS 落盘验证。

2024/12/2

大数据-237 离线数仓 Hive 广告业务实战：ODS→DWD 事件解析、广告明细与转化分析落地

Hive 离线数仓广告业务实战，结合 Flume + Hive + UDF + Parquet 的典型链路，演示如何将原始事件日志从 ODS 层映射到 Hive 外部表，再在 DWD 层完成事件明细拆解、广告行为过滤与广告宽表构建。

2024/11/29

大数据-235 离线数仓实战：Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路

演示一套从日志采集到会员指标分析的完整链路，涵盖 Flume Taildir 监听、HDFS 分区存储、Hive 外部表加载、ODS/DWD/DWS/ADS 分层处理，支撑活跃会员、新增会员、会员留存等指标计算。

2024/11/27

大数据-230 离线数仓-ODS层的构建 Hive 2.3.7 JSON 解析实战：UDF 取数组 + explode 展开 vs JsonSerDe 建表加载

文章浏览阅读5.9k次，点赞38次，收藏34次。Hive 离线数仓中的 JSON 数据处理，覆盖三类最常见需求：1）从 JSON 串中取数组字段并在 SQL 中 explode 展开；2）从 JSON 串中同时解析普通字段（json_tuple）与数组字段（自定义 UDF）；3）对"每行一个 JSON object"的原始文件，使用 JsonSerDe 直接建表加载。示例基于 Hive 2.3.7（hive-exec 2.3.7）与 Java UDF，实现输入（jsonStr、arrKey）输出 array，并配套 LATERAL VIEW

2024/11/21

大数据-229 离线数仓ODS 层实战：Hive 外部表分区加载与 JSON 解析（get_json_object/json_tuple）

文章浏览阅读8.8k次，点赞31次，收藏34次。离线数仓（2026）中 ODS（Operational Data Store）层的工程落地，给出 Hive 外部表（external table）+ 按天分区（partition dt）承接原始日志的最小闭环：建表 location 指向 HDFS 目录、通过 alter table add partition 管理分区，并用 Shell 脚本实现"传参日期/默认昨天"的装载流程。随后聚焦 Hive JSON 处理：get_json_object 适合单字段路径提取，json_tuple 适合一次取多个键...

2024/11/20

大数据-228 离线数仓 Flume Taildir + 自定义 Interceptor：从 JSON 提取时间戳写入 HDFS 分区

文章浏览阅读4.2k次，点赞15次，收藏27次。Apache Flume 的离线日志采集链路，给出一套工程化落地：使用 Taildir Source 监控多个目录与多文件正则匹配，为不同目录日志注入 logtype 等 Header；通过自定义 Interceptor（Java）解析 Event body 中的 JSON（fastjson），提取启动日志/事件日志的时间戳并转换为 yyyy-MM-dd 写入 logtime Header；最后由 HDFS Sink 基于 Header 动态路由写入不同 HDFS 路径，实现按天分区与可控的文件滚动

2024/11/19

大数据-227 离线数仓-Flume 1.9.0 自定义拦截器实战：TAILDIR 多目录采集，按 logtime/logtype 写入 HDFS 分区

文章浏览阅读4.5k次，点赞32次，收藏27次。使用 TAILDIR Source 监控多个目录（start/event），通过 filegroups headers 为不同来源打上 logtype；再配合自定义 Interceptor 从日志正文解析业务时间，写入 header=logtime。最终 HDFS Sink 采用动态路径 /user/data/logs/%{logtype}/dt=%{logtime}/，实现按日志类型分目录、按日志时间分区落盘。文中覆盖 jar-with-dependencies 投放位置、拦截器 Builder 配置

2024/11/18

大数据-226 离线数仓 Flume 优化配置实战：batchSize/Channel/压缩/自定义拦截器与 OOM 修复

文章浏览阅读8.5k次，点赞24次，收藏18次。Flume 1.9.0 在离线数仓（日志采集→HDFS）场景的工程化优化：从 Source→Channel→Sink 全链路给出 batchSize、Memory/File Channel 的 capacity/transactionCapacity、压缩传输（gzip/snappy/lz4）等关键参数的可落地取值区间与取舍原则，重点解决高并发写入下的吞吐与稳定性问题。同时整理 Flume 常见 OOM 根因：默认 JVM 堆过小导致导入大日志或突发流量时崩溃，给出 flume-env.sh 的 -Xms/_java flume 拦截器

2024/11/16

大数据-225 离线数仓会员指标实战：Flume Taildir HDFS ODS/DWD/DWS/ADS 全链路落地

文章浏览阅读5.3k次，点赞18次，收藏29次。离线数仓建设，给出"日志采集→落地→分层→指标"的工程化路径。会员以设备唯一标识（Android IMEI / iOS OpenUDID）为口径，输出新增会员、活跃会员（DAU/WAU/MAU）与留存（次日/7日/30日）等核心指标。采集侧选择 Flume 1.8+ 的 Taildir Source 解决多目录增量追踪与断点续传（positionFile），通过 HDFS Sink 按日期分区写入，进入 ODS，再在 DWD 清洗明细、DWS 汇总主题、ADS 对外服务。

2024/11/15

大数据-223 离线数仓怎么建：埋点→指标体系→主题分析任务，全链路落地指南

文章浏览阅读4.5k次，点赞23次，收藏27次。业务拆分（前台/运营后台/商家后台）→数据来源（启动/点击日志、下单/支付/退款等交易数据）→数据埋点（页面统计/操作统计、需求—采集—上报—清洗加工—入仓—分析—展示）→指标体系（准确/可解释/结构性、指标=基础指标+修饰词+时间段、核心指标与维度拆解、漏斗拆解与监控）。结合会员活跃、广告、核心交易三类主题分析任务，强调指标口径标准化（指标字典、数据来源、去重与空值规则）与宣贯落地（责任矩阵、评审会、报表与告警）。适用于 2025–2026 年电商数据团队搭建离线数仓、沉淀指标体系与提升报表稳定性的实践场

2024/11/14

大数据-224 离线数仓架构怎么选型与估算集群规模：Apache vs CDH/HDP，全组件清单+命名规范

离线数据仓库（离线数仓）总体架构设计与落地方法：框架选型对比 Apache 社区版与第三方发行版（CDH/HDP/FusionInsight），梳理数据采集（DataX/Flume/Sqoop/Logstash/Kafka）、存储（HDFS/HBase）、计算（Hive/MapReduce/Tez/Spark/Flink）、调度（Airflow/Azkaban/Oozie）、元数据（Atlas）、质量（Griffin）、即席查询（Impala/Kylin/ClickHouse/Presto/Druid）等组件

2024/11/14

大数据-221 离线数仓分层实战：ODS/DWD/DWS/DIM/ADS 怎么划，数据集如何避免数据孤岛

文章浏览阅读4.2k次，点赞40次，收藏35次。（Offline Data Warehouse）在企业落地时最常见的两类问题：数据集市扩张导致的数据孤岛、以及数仓分层边界不清导致的重复计算与口径混乱，给出可执行的工程化拆解。你会看到数据集市（Data Mart）为何只能作为数据仓库（DW）的一部分，以及在多 BU 组织下如何通过一致性维度（DIM）与可复用的明细层（DWD）/汇总层（DWS）来减少重复开发、提升查数效率并稳定指标口径。同时对 ER/3NF（Inmon）与维度模型（Kimball，星型/雪花）给出适用条件：业务快速变化场景优先维度模型，追求大数据离线数仓分层

2024/11/13

大数据-222 离线数仓建模实战：事实表/维度表、三类事实表与雪花/星座模型

文章浏览阅读5.3k次，点赞39次，收藏25次。离线数仓建模实践，系统梳理事实表（Fact Table）与维度表（Dimension Table）的核心概念、事实类型（可加/半可加/不可加）与粒度（交易/快照/累积快照）对查询性能与可分析性的决定性影响。围绕三类事实表：事务事实表、周期快照事实表、累积快照事实表，给出适用业务过程与更新机制边界，尤其强调累积快照的多里程碑日期键与"未发生"代理键占位策略。进一步对比雪花模型（维度规范化、低冗余但多连接）与事实星座（共享公共维表、多主题事实表）在存储、维护与查询效率上的取舍，补充元数据（技术/业务/管理元数据）

2024/11/13

标签: flume

大数据-239 离线数仓广告业务实战：Flume 导入日志到 HDFS，并完成 Hive ODS/DWD 分层加载

大数据-237 离线数仓 Hive 广告业务实战：ODS→DWD 事件解析、广告明细与转化分析落地

大数据-235 离线数仓实战：Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路

大数据-230 离线数仓-ODS层的构建 Hive 2.3.7 JSON 解析实战：UDF 取数组 + explode 展开 vs JsonSerDe 建表加载

大数据-229 离线数仓ODS 层实战：Hive 外部表分区加载与 JSON 解析（get_json_object/json_tuple）

大数据-228 离线数仓 Flume Taildir + 自定义 Interceptor：从 JSON 提取时间戳写入 HDFS 分区

大数据-227 离线数仓-Flume 1.9.0 自定义拦截器实战：TAILDIR 多目录采集，按 logtime/logtype 写入 HDFS 分区

大数据-226 离线数仓 Flume 优化配置实战：batchSize/Channel/压缩/自定义拦截器与 OOM 修复

大数据-225 离线数仓会员指标实战：Flume Taildir HDFS ODS/DWD/DWS/ADS 全链路落地

大数据-223 离线数仓怎么建：埋点→指标体系→主题分析任务，全链路落地指南

大数据-224 离线数仓架构怎么选型与估算集群规模：Apache vs CDH/HDP，全组件清单+命名规范

大数据-221 离线数仓分层实战：ODS/DWD/DWS/DIM/ADS 怎么划，数据集如何避免数据孤岛

大数据-222 离线数仓建模实战：事实表/维度表、三类事实表与雪花/星座模型

大数据-19 Flume 采集 Hive 日志到 HDFS

大数据-20 Flume 双 Sink：日志同时写入 HDFS 与本地文件

大数据-17 Apache Flume 架构与核心概念

大数据-18 Flume 入门：NetCat Source + Memory Channel + Logger Sink

标签: flume

大数据-239 离线数仓 广告业务实战：Flume 导入日志到 HDFS，并完成 Hive ODS/DWD 分层加载

大数据-237 离线数仓 Hive 广告业务实战：ODS→DWD 事件解析、广告明细与转化分析落地

大数据-235 离线数仓 实战：Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路

大数据-230 离线数仓-ODS层的构建 Hive 2.3.7 JSON 解析实战：UDF 取数组 + explode 展开 vs JsonSerDe 建表加载

大数据-229 离线数仓ODS 层实战：Hive 外部表分区加载与 JSON 解析（get_json_object/json_tuple）

大数据-228 离线数仓 Flume Taildir + 自定义 Interceptor：从 JSON 提取时间戳写入 HDFS 分区

大数据-227 离线数仓-Flume 1.9.0 自定义拦截器实战：TAILDIR 多目录采集，按 logtime/logtype 写入 HDFS 分区

大数据-226 离线数仓 Flume 优化配置实战：batchSize/Channel/压缩/自定义拦截器与 OOM 修复

大数据-225 离线数仓 会员指标实战：Flume Taildir HDFS ODS/DWD/DWS/ADS 全链路落地

大数据-223 离线数仓怎么建：埋点→指标体系→主题分析任务，全链路落地指南

大数据-224 离线数仓 架构怎么选型与估算集群规模：Apache vs CDH/HDP，全组件清单+命名规范

大数据-221 离线数仓分层实战：ODS/DWD/DWS/DIM/ADS 怎么划，数据集如何避免数据孤岛

大数据-222 离线数仓建模实战：事实表/维度表、三类事实表与雪花/星座模型

大数据-19 Flume 采集 Hive 日志到 HDFS

大数据-20 Flume 双 Sink：日志同时写入 HDFS 与本地文件

大数据-17 Apache Flume 架构与核心概念

大数据-18 Flume 入门：NetCat Source + Memory Channel + Logger Sink

大数据-239 离线数仓广告业务实战：Flume 导入日志到 HDFS，并完成 Hive ODS/DWD 分层加载

大数据-235 离线数仓实战：Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路

大数据-225 离线数仓会员指标实战：Flume Taildir HDFS ODS/DWD/DWS/ADS 全链路落地

大数据-224 离线数仓架构怎么选型与估算集群规模：Apache vs CDH/HDP，全组件清单+命名规范