标签: flume

共 17 篇文章

大数据-239 离线数仓 广告业务实战:Flume 导入日志到 HDFS,并完成 Hive ODS/DWD 分层加载

使用 Flume Agent 采集 event 日志并写入 HDFS,再通过 Hive 脚本按日期完成 ODS 层与 DWD 层的数据装载。内容覆盖 Flume Agent 的 Source、Channel、Sink 基本结构,日志文件上传...

大数据-237 离线数仓 Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地

Hive 离线数仓广告业务实战,结合 Flume + Hive + UDF + Parquet 的典型链路,演示如何将原始事件日志从 ODS 层映射到 Hive 外部表,再在 DWD 层完成事件明细拆解、广告行为过滤与广告宽表构建。

大数据-235 离线数仓 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路

演示一套从日志采集到会员指标分析的完整链路,涵盖 Flume Taildir 监听、HDFS 分区存储、Hive 外部表加载、ODS/DWD/DWS/ADS 分层处理,支撑活跃会员、新增会员、会员留存等指标计算。

大数据-230 离线数仓-ODS层的构建 Hive 2.3.7 JSON 解析实战:UDF 取数组 + explode/json_tuple

Hive 离线数仓中的 JSON 数据处理,覆盖三类最常见需求:1)从 JSON 串中取数组字段并在 SQL 中 explode 展开;2)从 JSON 串中同时解析普通字段(json_tuple)与数组字段(自定义 UDF);

大数据-229 离线数仓ODS 层实战:Hive 外部表分区加载与 JSON 解析(get_json_object)

离线数仓(2026)中 ODS(Operational Data Store)层的工程落地,给出 Hive 外部表(external table)+ 按天分区(partition dt)承接原始日志的最小闭环:

大数据-228 离线数仓 Flume Taildir + 自定义 Interceptor:从 JSON 提取时间戳过滤

Apache Flume 的离线日志采集链路,给出一套工程化落地:使用 Taildir Source 监控多个目录与多文件正则匹配,为不同目录日志注入 logtype 等 Header

大数据-227 离线数仓-Flume 1.9.0 自定义拦截器实战:TAILDIR 多目录采集,按 logtime 过滤

使用 TAILDIR Source 监控多个目录(start/event),通过 filegroups headers 为不同来源打上 logtype;再配合自定义 Interceptor 从日志正文解析业务时间...

大数据-226 离线数仓 Flume 优化配置实战:batchSize/Channel/压缩/自定义拦截器与 OOM 处理

Flume 1.9.0 在离线数仓(日志采集→HDFS)场景的工程化优化:从 Source→Channel→Sink 全链路给出 batchSize、Memory/File Channel 的 capacity/transactionCap...

大数据-225 离线数仓 会员指标实战:Flume Taildir HDFS ODS/DWD/DWS/ADS 全链路落地

离线数仓建设,给出"日志采集→落地→分层→指标"的工程化路径。会员以设备唯一标识(Android IMEI / iOS OpenUDID)为口径,输出新增会员、活跃会员(DAU/WAU/MAU)与留存(次日/7日/30日)等核心指标。

大数据-223 离线数仓怎么建:埋点→指标体系→主题分析任务,全链路落地指南

业务拆分(前台/运营后台/商家后台)→数据来源(启动/点击日志、下单/支付/退款等交易数据)→数据埋点(页面统计/操作统计、需求—采集—上报—清洗加工—入仓—分析—展示)→指标体系(准确/可解释/结构性、指标=基础指标+修饰词+时间段...

大数据-224 离线数仓 架构怎么选型与估算集群规模:Apache vs CDH/HDP,全组件清单+命名规范

离线数据仓库(离线数仓)总体架构设计与落地方法:框架选型对比 Apache 社区版与第三方发行版(CDH/HDP/FusionInsight),梳理数据采集(DataX/Flume/Sqoop/Logstash/Kafka)...

大数据-221 离线数仓分层实战:ODS/DWD/DWS/DIM/ADS 怎么划,数据集如何避免数据孤岛

(Offline Data Warehouse)在企业落地时最常见的两类问题:数据集市扩张导致的数据孤岛、以及数仓分层边界不清导致的重复计算与口径混乱,给出可执行的工程化拆解。

大数据-222 离线数仓建模实战:事实表/维度表、三类事实表与雪花/星座模型

离线数仓建模实践,系统梳理事实表(Fact Table)与维度表(Dimension Table)的核心概念、事实类型(可加/半可加/不可加)与粒度(交易/快照/累积快照)对查询性能与可分析性的决定性影响。

大数据-19 Flume 采集 Hive 日志到 HDFS

使用 Flume exec source 实时追踪 Hive 日志文件,通过 memory channel 缓冲,配置 HDFS sink 按时间分区写入,实现日志数据自动落盘 HDFS。

大数据-20 Flume 双 Sink:日志同时写入 HDFS 与本地文件

通过 Flume 复制模式(Replicating Channel Selector)和三 Agent 级联架构,实现一份日志数据同时写入 HDFS 和本地文件,满足离线分析与实时备份双重需求。

大数据-17 Apache Flume 架构与核心概念

介绍 Apache Flume 的定位、核心组件(Source、Channel、Sink)、事件模型与常见数据流拓扑,以及安装配置方法。

大数据-18 Flume 入门:NetCat Source + Memory Channel + Logger Sink

通过 Flume 最简单的 Hello World 案例,使用 netcat source 监听端口、memory channel 缓冲、logger sink 控制台输出,演示完整的 Source→Channel→Sink 数据流。