标签: flume

共 17 篇文章

大数据-239 离线数仓 广告业务实战:Flume 导入日志到 HDFS,并完成 Hive ODS/DWD 分层加载

使用 Flume Agent 采集 event 日志并写入 HDFS,再通过 Hive 脚本按日期完成 ODS 层与 DWD 层的数据装载。内容覆盖 Flume Agent 的 Source、Channel、Sink 基本结构,日志文件上传、Flume 启动命令、HDFS 落盘验证。

大数据-237 离线数仓 Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地

Hive 离线数仓广告业务实战,结合 Flume + Hive + UDF + Parquet 的典型链路,演示如何将原始事件日志从 ODS 层映射到 Hive 外部表,再在 DWD 层完成事件明细拆解、广告行为过滤与广告宽表构建。

大数据-235 离线数仓 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路

演示一套从日志采集到会员指标分析的完整链路,涵盖 Flume Taildir 监听、HDFS 分区存储、Hive 外部表加载、ODS/DWD/DWS/ADS 分层处理,支撑活跃会员、新增会员、会员留存等指标计算。

大数据-230 离线数仓-ODS层的构建 Hive 2.3.7 JSON 解析实战:UDF 取数组 + explode 展开 vs JsonSerDe 建表加载

文章浏览阅读5.9k次,点赞38次,收藏34次。Hive 离线数仓中的 JSON 数据处理,覆盖三类最常见需求:1)从 JSON 串中取数组字段并在 SQL 中 explode 展开;2)从 JSON 串中同时解析普通字段(json_tuple)与数组字段(自定义 UDF);3)对"每行一个 JSON object"的原始文件,使用 JsonSerDe 直接建表加载。示例基于 Hive 2.3.7(hive-exec 2.3.7)与 Java UDF,实现输入(jsonStr、arrKey)输出 array,并配套 LATERAL VIEW

大数据-229 离线数仓ODS 层实战:Hive 外部表分区加载与 JSON 解析(get_json_object/json_tuple)

文章浏览阅读8.8k次,点赞31次,收藏34次。离线数仓(2026)中 ODS(Operational Data Store)层的工程落地,给出 Hive 外部表(external table)+ 按天分区(partition dt)承接原始日志的最小闭环:建表 location 指向 HDFS 目录、通过 alter table add partition 管理分区,并用 Shell 脚本实现"传参日期/默认昨天"的装载流程。随后聚焦 Hive JSON 处理:get_json_object 适合单字段路径提取,json_tuple 适合一次取多个键...

大数据-228 离线数仓 Flume Taildir + 自定义 Interceptor:从 JSON 提取时间戳写入 HDFS 分区

文章浏览阅读4.2k次,点赞15次,收藏27次。Apache Flume 的离线日志采集链路,给出一套工程化落地:使用 Taildir Source 监控多个目录与多文件正则匹配,为不同目录日志注入 logtype 等 Header;通过自定义 Interceptor(Java)解析 Event body 中的 JSON(fastjson),提取启动日志/事件日志的时间戳并转换为 yyyy-MM-dd 写入 logtime Header;最后由 HDFS Sink 基于 Header 动态路由写入不同 HDFS 路径,实现按天分区与可控的文件滚动

大数据-227 离线数仓-Flume 1.9.0 自定义拦截器实战:TAILDIR 多目录采集,按 logtime/logtype 写入 HDFS 分区

文章浏览阅读4.5k次,点赞32次,收藏27次。使用 TAILDIR Source 监控多个目录(start/event),通过 filegroups headers 为不同来源打上 logtype;再配合自定义 Interceptor 从日志正文解析业务时间,写入 header=logtime。最终 HDFS Sink 采用动态路径 /user/data/logs/%{logtype}/dt=%{logtime}/,实现按日志类型分目录、按日志时间分区落盘。文中覆盖 jar-with-dependencies 投放位置、拦截器 Builder 配置

大数据-226 离线数仓 Flume 优化配置实战:batchSize/Channel/压缩/自定义拦截器与 OOM 修复

文章浏览阅读8.5k次,点赞24次,收藏18次。Flume 1.9.0 在离线数仓(日志采集→HDFS)场景的工程化优化:从 Source→Channel→Sink 全链路给出 batchSize、Memory/File Channel 的 capacity/transactionCapacity、压缩传输(gzip/snappy/lz4)等关键参数的可落地取值区间与取舍原则,重点解决高并发写入下的吞吐与稳定性问题。同时整理 Flume 常见 OOM 根因:默认 JVM 堆过小导致导入大日志或突发流量时崩溃,给出 flume-env.sh 的 -Xms/_java flume 拦截器

大数据-225 离线数仓 会员指标实战:Flume Taildir HDFS ODS/DWD/DWS/ADS 全链路落地

文章浏览阅读5.3k次,点赞18次,收藏29次。离线数仓建设,给出"日志采集→落地→分层→指标"的工程化路径。会员以设备唯一标识(Android IMEI / iOS OpenUDID)为口径,输出新增会员、活跃会员(DAU/WAU/MAU)与留存(次日/7日/30日)等核心指标。采集侧选择 Flume 1.8+ 的 Taildir Source 解决多目录增量追踪与断点续传(positionFile),通过 HDFS Sink 按日期分区写入,进入 ODS,再在 DWD 清洗明细、DWS 汇总主题、ADS 对外服务。

大数据-223 离线数仓怎么建:埋点→指标体系→主题分析任务,全链路落地指南

文章浏览阅读4.5k次,点赞23次,收藏27次。业务拆分(前台/运营后台/商家后台)→数据来源(启动/点击日志、下单/支付/退款等交易数据)→数据埋点(页面统计/操作统计、需求—采集—上报—清洗加工—入仓—分析—展示)→指标体系(准确/可解释/结构性、指标=基础指标+修饰词+时间段、核心指标与维度拆解、漏斗拆解与监控)。结合会员活跃、广告、核心交易三类主题分析任务,强调指标口径标准化(指标字典、数据来源、去重与空值规则)与宣贯落地(责任矩阵、评审会、报表与告警)。适用于 2025–2026 年电商数据团队搭建离线数仓、沉淀指标体系与提升报表稳定性的实践场

大数据-224 离线数仓 架构怎么选型与估算集群规模:Apache vs CDH/HDP,全组件清单+命名规范

离线数据仓库(离线数仓)总体架构设计与落地方法:框架选型对比 Apache 社区版与第三方发行版(CDH/HDP/FusionInsight),梳理数据采集(DataX/Flume/Sqoop/Logstash/Kafka)、存储(HDFS/HBase)、计算(Hive/MapReduce/Tez/Spark/Flink)、调度(Airflow/Azkaban/Oozie)、元数据(Atlas)、质量(Griffin)、即席查询(Impala/Kylin/ClickHouse/Presto/Druid)等组件

大数据-221 离线数仓分层实战:ODS/DWD/DWS/DIM/ADS 怎么划,数据集如何避免数据孤岛

文章浏览阅读4.2k次,点赞40次,收藏35次。(Offline Data Warehouse)在企业落地时最常见的两类问题:数据集市扩张导致的数据孤岛、以及数仓分层边界不清导致的重复计算与口径混乱,给出可执行的工程化拆解。你会看到数据集市(Data Mart)为何只能作为数据仓库(DW)的一部分,以及在多 BU 组织下如何通过一致性维度(DIM)与可复用的明细层(DWD)/汇总层(DWS)来减少重复开发、提升查数效率并稳定指标口径。同时对 ER/3NF(Inmon)与维度模型(Kimball,星型/雪花)给出适用条件:业务快速变化场景优先维度模型,追求大数据离线数仓分层

大数据-222 离线数仓建模实战:事实表/维度表、三类事实表与雪花/星座模型

文章浏览阅读5.3k次,点赞39次,收藏25次。离线数仓建模实践,系统梳理事实表(Fact Table)与维度表(Dimension Table)的核心概念、事实类型(可加/半可加/不可加)与粒度(交易/快照/累积快照)对查询性能与可分析性的决定性影响。围绕三类事实表:事务事实表、周期快照事实表、累积快照事实表,给出适用业务过程与更新机制边界,尤其强调累积快照的多里程碑日期键与"未发生"代理键占位策略。进一步对比雪花模型(维度规范化、低冗余但多连接)与事实星座(共享公共维表、多主题事实表)在存储、维护与查询效率上的取舍,补充元数据(技术/业务/管理元数据)

大数据-19 Flume 采集 Hive 日志到 HDFS

使用 Flume exec source 实时追踪 Hive 日志文件,通过 memory channel 缓冲,配置 HDFS sink 按时间分区写入,实现日志数据自动落盘 HDFS。

大数据-20 Flume 双 Sink:日志同时写入 HDFS 与本地文件

通过 Flume 复制模式(Replicating Channel Selector)和三 Agent 级联架构,实现一份日志数据同时写入 HDFS 和本地文件,满足离线分析与实时备份双重需求。

大数据-17 Apache Flume 架构与核心概念

介绍 Apache Flume 的定位、核心组件(Source、Channel、Sink)、事件模型与常见数据流拓扑,以及安装配置方法。

大数据-18 Flume 入门:NetCat Source + Memory Channel + Logger Sink

通过 Flume 最简单的 Hello World 案例,使用 netcat source 监听端口、memory channel 缓冲、logger sink 控制台输出,演示完整的 Source→Channel→Sink 数据流。