标签: data-warehouse

共 41 篇文章

大数据-260 实时数仓 - 项目背景与需求实时数仓架构需求分析技术选型逻辑架构

数据实时处理能力成为企业提升竞争力的一大因素，最初阶段主要采用来一个需求，编写一个实时任务的方式来处理实时数据，随着需求的增多，计算任务也相对增多，并且不同任务的开发人员不同，导致开发风格差异化，该阶段的实时数据处理缺乏统一的规划，代码风格差异化严重，在维护成本和开发效率上有很大障碍。CDH：最成型的发型版本，拥有最多的部署案例，提供强大的部署、管理和监控工具，国内使用最多的版本，拥有强大的社区支持。

2024/12/27

大数据-259 离线数仓 - Griffin架构修改配置 pom.xml sparkProperties 编译启动

Apache Griffin 是一个开源的数据质量管理框架，旨在帮助组织在大数据环境中监控和提高数据质量。用户可以自定义规则，使用 JSON 或其他标准格式来描述数据质量的各项要求，支持批处理和流处理数据。

2024/12/25

大数据-258 离线数仓 - Griffin架构配置安装 Livy 架构设计解压配置 Hadoop Hive

Livy 是一个用于 Apache Spark 的 REST 接口，旨在简化 Spark 作业的提交和管理，特别是在大数据处理场景中。它的主要功能是通过 REST API 与 Spark 集群进行交互，允许用户提交作业、执行代码片段并查询作业的状态和结果，而不需要直接与 Spark 的底层架构交互。简化 Spark 作业提交：用户可以通过 HTTP 请求向 Livy 发送 Spark 作业，而不需要直接使用 spark-submit命令。

2024/12/24

大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构

Apache Griffin是一个开源的大数据质量解决方案，它支持批处理和流处理两种模式的数据质量检测方式。可以从不同的维度（如离线任务执行完毕后检查源端和目标端的数据质量是否一致，源表数据值空值等）度量数据资产，从而提升数据的准确度、可信度。数据质量监控通常结合自动化工具和人工审查，利用数据质量管理平台进行实时监控，生成报告并触发警报，以便及时纠正问题。

2024/12/23

大数据-256 离线数仓 - Atlas 数据仓库元数据管理正式安装启动服务访问 Hive血缘关系导入

元数据（MetaData）狭义的解释是用来描述数据的数据。广义来看，除了业务逻辑直接读写处理的那些业务数据，所有其他用来维持整个系统运转所需的信息、数据都可以叫做元数据，如数据库中表的Schema信息，任务的血缘关系，用户和脚本、任务的权限映射关系信息等。管理元数据的目的，是为了让用户能够更高效的使用数据，也是为了平台管理人员能更加有效的做好数据的维护管理工作。

2024/12/21

大数据-255 离线数仓 - Atlas 数据仓库元数据管理数据血缘关系元数据

Atlas是Hadoop平台元数据框架：Atlas是一组可扩展的核心基础治理服务，使企业能够有效，高效的满足Hadoop中合规性要求，并能与整个企业数据生态系统集成Apache Atlas为组织提供了开放的元数据管理和治理功能，以建立数据资产的目录，对这些资产进行分类和治理，并为IT团队、数据分析团队提供围绕这些数据资产的协作功能。

2024/12/20

大数据-254 离线数仓 - Airflow 任务调度核心交易调度任务集成

Apache Airflow 是一个开源的任务调度和工作流管理工具，用于编排复杂的数据处理任务。最初由 Airbnb 开发，于 2016 年捐赠给 Apache 软件基金会。Airflow 的主要特点是以代码方式定义任务及其依赖关系，支持任务的调度和监控，适合处理复杂的大数据任务。

2024/12/19

大数据-253 离线数仓 - Airflow 任务调度核心概念与实际案例测试 Py脚本编写

2024/12/18

大数据-252 离线数仓 - Airflow 任务调度 Crontab简介任务集成部署入门案例

Linux系统是由cron（crond）系统服务来控制的，Linux系统上原本那就有非常多的计划性工作，因此这个系统服务是默认启动的。Linux系统也提供了Linux用户控制计划任务的命令：crontab命令。作用：任务（命令）定时调度、定时备份等。

2024/12/17

大数据-251 离线数仓 - Airflow 任务调度系统安装部署测试

Apache Airflow 是一个开源的任务调度和工作流管理工具，用于编排复杂的数据处理任务。最初由 Airbnb 开发，于 2016 年捐赠给 Apache 软件基金会。Airflow 的主要特点是以代码方式定义任务及其依赖关系，支持任务的调度和监控，适合处理复杂的大数据任务。airflow离线安装部署

2024/12/16

大数据-250 离线数仓 - ADS层与 Airflow 任务调度系统

Apache Airflow 是一个开源的任务调度和工作流管理平台，主要用于开发、调试和监控数据管道。Airflow 通过使用 Python 脚本定义任务和依赖关系，帮助用户以编程的方式构建动态的、可视化的工作流。

2024/12/14

大数据-249 离线数仓 - DWD层建表与脚本 DWS层建表与脚本

订单表是周期性事实表，为保留订单状态可使用拉链表处理；订单产品表为普通事实表。订单状态包括：-3用户拒收、-2未付款订单、-1用户取消、0等待发货、1配送中、2用户确认收货。订单从创建到完成有时间限制，业务上不允许订单一个月后状态仍变化。

2024/12/13

大数据-248 离线数仓 - 维表：商品分类表、地域组织表、商品信息表

文章首先确定事实表与维表的区分：绿色表示事实表，灰色表示维表。维表处理方式根据数据量选择不同策略——小表采用每日快照表（如产品分类表、商家店铺表、商家地域组织表、支付方式表），大表则使用拉链表（如产品信息表）。由于数据库遵循三范式导致查询不便，文章通过逆规范化设计，将商品分类维度表、省份区域维度表和商家信息维度表进行处理，生成宽表以简化查询逻辑。

2024/12/12

大数据-247 离线数仓 - Hive 拉链表实战：订单历史状态增量刷新

Hive 拉链表实战教程，讲解订单历史状态增量刷新、ODS 到 DWD 分层，结合 2020 年订单状态变更案例，说明拉链表如何处理"记录会变化、又需要保留历史"的业务对象。

2024/12/11

大数据-246 离线数仓 - Hive 拉链表实战：初始化、增量更新、回滚脚本

文章浏览阅读5.2k次，点赞37次，收藏15次。离线数仓建模方式，实战讲解 Hive 拉链表实现方案，覆盖初始化装载、每日增量更新、历史版本闭链、Shell 调度脚本以及回滚恢复逻辑。

2024/12/10

大数据-245 离线数仓 - Hive 拉链表入门实战：缓慢变化维 SCD 类型、建表加载

文章浏览阅读5.2k次，点赞39次，收藏23次。缓慢变化维（SCD，Slowly Changing Dimensions）展开，系统梳理 SCD Type 0、1、2、3、4、6 的核心差异，并结合 Hive 离线数仓场景说明快照表与拉链表的适用边界。

2024/12/9

大数据-244 离线数仓 - Hive ODS 层建表与分区加载实战

通过 DataX 将 MySQL 数据同步到 HDFS 指定目录，再在 Hive 中创建 ODS 外部表，统一使用 dt 字符串分区。允许在7天内快速查询原始交易记录体现ods层什么核心特点。

2024/12/7

大数据-243 离线数仓 - 实战电商核心交易增量导入（DataX - HDFS - Hive 分区）

使用 DataX（MySQLReader + HDFSWriter）从 MySQL 抽取订单表、订单明细表、产品信息表的日增量数据，落地到 HDFS，并以 dt=yyyy-MM-dd 目录实现分区化存储，后续通过 Hive alter table ... add partition 完成 ODS 分区挂载。核心指标覆盖订单数、商品数、支付金额。

2024/12/6

大数据-242 离线数仓 - DataX 实战：MySQL 全量/增量导入 HDFS + Hive 分区

文章浏览阅读6k次，点赞22次，收藏14次。DataX（mysqlreader + hdfswriter）将 MySQL 电商业务库按"全量/增量"两类策略抽取到 HDFS，并在 Hive 中以 dt=yyyy-mm-dd 进行分区管理。针对维表/小表（如商品分类、店铺、组织、支付方式）采用每日全量导出形成新分区；针对事实表/大表（订单、订单商品、商品信息）基于可区分每日新增的字段执行增量抽取。

2024/12/5

大数据-241 离线数仓 - 实战：电商核心交易数据模型与 MySQL 源表设计（订单/商品/品类/店铺/支付）

文章浏览阅读4.4k次，点赞28次，收藏16次。围绕订单数、商品数、支付金额三大指标，按销售区域与商品类型（三级品类）拆解分析维度。基于 trade_orders、order_product、product_info、product_category、shops、shop_admin_org、payments 等表，明确主键与关联键（orderId / productId / shopId / categoryId / areaId / payMethod），并梳理口径：订单粒度 vs 明细粒度、支付金额取值（totalMoney vs money）

2024/12/4

大数据-240 离线数仓广告业务 Hive ADS 实战：DataX 将 HDFS 分区表导出到 MySQL

使用 DataX 将 Hive ADS 层数据导出到 MySQL 的完整方案。涵盖 ADS 装载、DataX 配置、MySQL 建表、Shell 脚本参数化执行，以及常见报错定位与修复清单。

2024/12/3

大数据-239 离线数仓广告业务实战：Flume 导入日志到 HDFS，并完成 Hive ODS/DWD 分层加载

使用 Flume Agent 采集 event 日志并写入 HDFS，再通过 Hive 脚本按日期完成 ODS 层与 DWD 层的数据装载。内容覆盖 Flume Agent 的 Source、Channel、Sink 基本结构，日志文件上传、Flume 启动命令、HDFS 落盘验证。

2024/12/2

大数据-238 离线数仓广告业务 Hive 分析实战：ADS 点击率、购买率与 Top100 排名避坑

基于 Hive 离线数仓实现广告曝光、点击、购买的分时统计，完成点击率 CTR、购买率 CVR 与广告效果 Top100 排名分析。涵盖 ADS 层建表、分区装载、CASE WHEN 行转列、窗口函数排名等典型写法。

2024/11/30

大数据-237 离线数仓 Hive 广告业务实战：ODS→DWD 事件解析、广告明细与转化分析落地

Hive 离线数仓广告业务实战，结合 Flume + Hive + UDF + Parquet 的典型链路，演示如何将原始事件日志从 ODS 层映射到 Hive 外部表，再在 DWD 层完成事件明细拆解、广告行为过滤与广告宽表构建。

2024/11/29

大数据-236 离线数仓会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程

基于 Hadoop + Hive + HDFS + DataX + MySQL 的离线数仓实战，涵盖会员指标测试（活跃/新增/留存）、HDFS 导出、DataX 同步至 MySQL，以及广告业务 ODS/DWD/ADS 全流程建模。

2024/11/28

大数据-235 离线数仓实战：Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路

演示一套从日志采集到会员指标分析的完整链路，涵盖 Flume Taildir 监听、HDFS 分区存储、Hive 外部表加载、ODS/DWD/DWS/ADS 分层处理，支撑活跃会员、新增会员、会员留存等指标计算。

2024/11/27

大数据-234 离线数仓 Hive ADS 导出 MySQL DataX 实战配置与踩坑速查

离线数仓 ADS 层 Hive 表导出到 MySQL 的落地链路，给出 DataX 典型方案：hdfsreader → mysqlwriter。重点覆盖 DataX JSON 配置与常见报错修复。

2024/11/26

大数据-233 离线数仓留存率怎么做：DWS 明细建模 + ADS 聚合落表 Hive 脚本实战

离线数仓中“会员留存“的实现方法：DWS 层通过 dws_member_retention_day 表关联新增与启动明细表计算 1/2/3 日留存；ADS 层构建留存数表与留存率表。包含完整 Hive 建表、装载脚本及常见错误排查。

2024/11/25

大数据-232 离线数仓 Hive 新增会员与留存计算：DWS 明细 + ADS 汇总一套跑通

离线数仓按天计算“新增会员”，并为后续“会员留存”提供口径一致的数据底座。用“全量会员表(含首日dt)”做去重锚点，DWS 产新增明细，ADS 产新增计数。

2024/11/23

大数据-231 离线数仓 Hive 实战：DWD 到 DWS 日周月活跃会员 ADS 指标落地脚本与坑点

本文介绍使用 Hive 构建离线数仓，统计活跃会员（日活/周活/月活）的完整流程，从 DWD 明细层到 DWS 汇总层再到 ADS 应用层，涵盖建表脚本、数据装载脚本及常见错误速查。

2024/11/22

大数据-230 离线数仓-ODS层的构建 Hive 2.3.7 JSON 解析实战：UDF 取数组 + explode 展开 vs JsonSerDe 建表加载

文章浏览阅读5.9k次，点赞38次，收藏34次。Hive 离线数仓中的 JSON 数据处理，覆盖三类最常见需求：1）从 JSON 串中取数组字段并在 SQL 中 explode 展开；2）从 JSON 串中同时解析普通字段（json_tuple）与数组字段（自定义 UDF）；3）对"每行一个 JSON object"的原始文件，使用 JsonSerDe 直接建表加载。示例基于 Hive 2.3.7（hive-exec 2.3.7）与 Java UDF，实现输入（jsonStr、arrKey）输出 array，并配套 LATERAL VIEW

2024/11/21

大数据-229 离线数仓ODS 层实战：Hive 外部表分区加载与 JSON 解析（get_json_object/json_tuple）

文章浏览阅读8.8k次，点赞31次，收藏34次。离线数仓（2026）中 ODS（Operational Data Store）层的工程落地，给出 Hive 外部表（external table）+ 按天分区（partition dt）承接原始日志的最小闭环：建表 location 指向 HDFS 目录、通过 alter table add partition 管理分区，并用 Shell 脚本实现"传参日期/默认昨天"的装载流程。随后聚焦 Hive JSON 处理：get_json_object 适合单字段路径提取，json_tuple 适合一次取多个键...

2024/11/20

大数据-228 离线数仓 Flume Taildir + 自定义 Interceptor：从 JSON 提取时间戳写入 HDFS 分区

文章浏览阅读4.2k次，点赞15次，收藏27次。Apache Flume 的离线日志采集链路，给出一套工程化落地：使用 Taildir Source 监控多个目录与多文件正则匹配，为不同目录日志注入 logtype 等 Header；通过自定义 Interceptor（Java）解析 Event body 中的 JSON（fastjson），提取启动日志/事件日志的时间戳并转换为 yyyy-MM-dd 写入 logtime Header；最后由 HDFS Sink 基于 Header 动态路由写入不同 HDFS 路径，实现按天分区与可控的文件滚动

2024/11/19

大数据-227 离线数仓-Flume 1.9.0 自定义拦截器实战：TAILDIR 多目录采集，按 logtime/logtype 写入 HDFS 分区

文章浏览阅读4.5k次，点赞32次，收藏27次。使用 TAILDIR Source 监控多个目录（start/event），通过 filegroups headers 为不同来源打上 logtype；再配合自定义 Interceptor 从日志正文解析业务时间，写入 header=logtime。最终 HDFS Sink 采用动态路径 /user/data/logs/%{logtype}/dt=%{logtime}/，实现按日志类型分目录、按日志时间分区落盘。文中覆盖 jar-with-dependencies 投放位置、拦截器 Builder 配置

2024/11/18

大数据-226 离线数仓 Flume 优化配置实战：batchSize/Channel/压缩/自定义拦截器与 OOM 修复

文章浏览阅读8.5k次，点赞24次，收藏18次。Flume 1.9.0 在离线数仓（日志采集→HDFS）场景的工程化优化：从 Source→Channel→Sink 全链路给出 batchSize、Memory/File Channel 的 capacity/transactionCapacity、压缩传输（gzip/snappy/lz4）等关键参数的可落地取值区间与取舍原则，重点解决高并发写入下的吞吐与稳定性问题。同时整理 Flume 常见 OOM 根因：默认 JVM 堆过小导致导入大日志或突发流量时崩溃，给出 flume-env.sh 的 -Xms/_java flume 拦截器

2024/11/16

大数据-225 离线数仓会员指标实战：Flume Taildir HDFS ODS/DWD/DWS/ADS 全链路落地

文章浏览阅读5.3k次，点赞18次，收藏29次。离线数仓建设，给出"日志采集→落地→分层→指标"的工程化路径。会员以设备唯一标识（Android IMEI / iOS OpenUDID）为口径，输出新增会员、活跃会员（DAU/WAU/MAU）与留存（次日/7日/30日）等核心指标。采集侧选择 Flume 1.8+ 的 Taildir Source 解决多目录增量追踪与断点续传（positionFile），通过 HDFS Sink 按日期分区写入，进入 ODS，再在 DWD 清洗明细、DWS 汇总主题、ADS 对外服务。

2024/11/15

大数据-223 离线数仓怎么建：埋点→指标体系→主题分析任务，全链路落地指南

文章浏览阅读4.5k次，点赞23次，收藏27次。业务拆分（前台/运营后台/商家后台）→数据来源（启动/点击日志、下单/支付/退款等交易数据）→数据埋点（页面统计/操作统计、需求—采集—上报—清洗加工—入仓—分析—展示）→指标体系（准确/可解释/结构性、指标=基础指标+修饰词+时间段、核心指标与维度拆解、漏斗拆解与监控）。结合会员活跃、广告、核心交易三类主题分析任务，强调指标口径标准化（指标字典、数据来源、去重与空值规则）与宣贯落地（责任矩阵、评审会、报表与告警）。适用于 2025–2026 年电商数据团队搭建离线数仓、沉淀指标体系与提升报表稳定性的实践场

2024/11/14

大数据-224 离线数仓架构怎么选型与估算集群规模：Apache vs CDH/HDP，全组件清单+命名规范

离线数据仓库（离线数仓）总体架构设计与落地方法：框架选型对比 Apache 社区版与第三方发行版（CDH/HDP/FusionInsight），梳理数据采集（DataX/Flume/Sqoop/Logstash/Kafka）、存储（HDFS/HBase）、计算（Hive/MapReduce/Tez/Spark/Flink）、调度（Airflow/Azkaban/Oozie）、元数据（Atlas）、质量（Griffin）、即席查询（Impala/Kylin/ClickHouse/Presto/Druid）等组件

2024/11/14

大数据-221 离线数仓分层实战：ODS/DWD/DWS/DIM/ADS 怎么划，数据集如何避免数据孤岛

文章浏览阅读4.2k次，点赞40次，收藏35次。（Offline Data Warehouse）在企业落地时最常见的两类问题：数据集市扩张导致的数据孤岛、以及数仓分层边界不清导致的重复计算与口径混乱，给出可执行的工程化拆解。你会看到数据集市（Data Mart）为何只能作为数据仓库（DW）的一部分，以及在多 BU 组织下如何通过一致性维度（DIM）与可复用的明细层（DWD）/汇总层（DWS）来减少重复开发、提升查数效率并稳定指标口径。同时对 ER/3NF（Inmon）与维度模型（Kimball，星型/雪花）给出适用条件：业务快速变化场景优先维度模型，追求大数据离线数仓分层

2024/11/13

大数据-222 离线数仓建模实战：事实表/维度表、三类事实表与雪花/星座模型

文章浏览阅读5.3k次，点赞39次，收藏25次。离线数仓建模实践，系统梳理事实表（Fact Table）与维度表（Dimension Table）的核心概念、事实类型（可加/半可加/不可加）与粒度（交易/快照/累积快照）对查询性能与可分析性的决定性影响。围绕三类事实表：事务事实表、周期快照事实表、累积快照事实表，给出适用业务过程与更新机制边界，尤其强调累积快照的多里程碑日期键与"未发生"代理键占位策略。进一步对比雪花模型（维度规范化、低冗余但多连接）与事实星座（共享公共维表、多主题事实表）在存储、维护与查询效率上的取舍，补充元数据（技术/业务/管理元数据）

2024/11/13

大数据-220 离线数仓数据仓库入门：四大特征、OLTP/OLAP差异与企业数仓架构要点

文章浏览阅读4.9k次，点赞24次，收藏20次。2026年工程实践，梳理数据仓库（数仓）的核心概念与落地关注点：从企业数据孤岛出发，解释数据仓库的四大特征——面向主题（Subject Oriented）、集成（Integrated）、相对稳定/非易失（Non-Volatile）、反映历史变化/时变（Time Variant）。同时给出数据库与数据仓库的本质对比，即OLTP（联机事务处理）与OLAP（联机分析处理）的差异：OLTP强调事务一致性与高并发写入，OLAP强调历史、聚合与多维分析（星型/雪花模型）。在工程链路上，重点说明ETL/ELT、数据集成过程，包括数据清洗、转换、加载，以及数据仓库的构建方法论。数据仓库主要用于解决企业级的数据分析问题或者管理和决策，为分析数据而设计，而非取代数据库。数据仓库包含各种粒度的历史数据，数据时限远远长于操作型数据的时限，数据按照时间的顺序追加，都带有时间属性。

2024/11/12

标签: data-warehouse

大数据-260 实时数仓 - 项目背景与需求 实时数仓架构 需求分析 技术选型 逻辑架构

大数据-259 离线数仓 - Griffin架构 修改配置 pom.xml sparkProperties 编译启动

大数据-258 离线数仓 - Griffin架构 配置安装 Livy 架构设计 解压配置 Hadoop Hive

大数据-257 离线数仓 - 数据质量监控 监控方法 Griffin架构

大数据-256 离线数仓 - Atlas 数据仓库元数据管理 正式安装 启动服务访问 Hive血缘关系导入

大数据-255 离线数仓 - Atlas 数据仓库元数据管理 数据血缘关系 元数据

大数据-254 离线数仓 - Airflow 任务调度 核心交易调度任务集成

大数据-253 离线数仓 - Airflow 任务调度 核心概念与实际案例测试 Py脚本编写

大数据-252 离线数仓 - Airflow 任务调度 Crontab简介 任务集成部署 入门案例

大数据-251 离线数仓 - Airflow 任务调度系统 安装部署测试

大数据-250 离线数仓 - ADS层 与 Airflow 任务调度系统