标签: data-warehouse

共 41 篇文章

大数据-260 实时数仓 - 项目背景与需求 实时数仓架构 需求分析 技术选型 逻辑架构

数据实时处理能力成为企业提升竞争力的一大因素,最初阶段主要采用来一个需求,编写一个实时任务的方式来处理实时数据,随着需求的增多,计算任务也相对增多,并且不同任务的开发人员不同,导致开发风格差异化,该阶段的实时数据处理缺乏统一的规划...

大数据-259 离线数仓 - Griffin架构 修改配置 pom.xml sparkProperties 编译启动

Apache Griffin 是一个开源的数据质量管理框架,旨在帮助组织在大数据环境中监控和提高数据质量。用户可以自定义规则,使用 JSON 或其他标准格式来描述数据质量的各项要求,支持批处理和流处理数据。

大数据-258 离线数仓 - Griffin架构 配置安装 Livy 架构设计 解压配置 Hadoop Hive

Livy 是一个用于 Apache Spark 的 REST 接口,旨在简化 Spark 作业的提交和管理,特别是在大数据处理场景中。它的主要功能是通过 REST API 与 Spark 集群进行交互,允许用户提交作业...

大数据-257 离线数仓 - 数据质量监控 监控方法 Griffin架构

Apache Griffin是一个开源的大数据质量解决方案,它支持批处理和流处理两种模式的数据质量检测方式。可以从不同的维度(如离线任务执行完毕后检查源端和目标端的数据质量是否一致,源表数据值空值等)度量数据资产,从而提升数据的准确度...

大数据-256 离线数仓 - Atlas 数据仓库元数据管理 正式安装 启动服务访问 Hive血缘关系导入

元数据(MetaData)狭义的解释是用来描述数据的数据。广义来看,除了业务逻辑直接读写处理的那些业务数据,所有其他用来维持整个系统运转所需的信息、数据都可以叫做元数据,如数据库中表的Schema信息,任务的血缘关系,用户和脚本...

大数据-255 离线数仓 - Atlas 数据仓库元数据管理 数据血缘关系 元数据

Atlas是Hadoop平台元数据框架:Atlas是一组可扩展的核心基础治理服务,使企业能够有效,高效的满足Hadoop中合规性要求,并能与整个企业数据生态系统集成Apache Atlas为组织提供了开放的元数据管理和治理功能...

大数据-254 离线数仓 - Airflow 任务调度 核心交易调度任务集成

Apache Airflow 是一个开源的任务调度和工作流管理工具,用于编排复杂的数据处理任务。最初由 Airbnb 开发,于 2016 年捐赠给 Apache 软件基金会。Airflow 的主要特点是以代码方式定义任务及其依赖关系...

大数据-253 离线数仓 - Airflow 任务调度 核心概念与实际案例测试 Py脚本编写

Apache Airflow 是一个开源的任务调度和工作流管理工具,用于编排复杂的数据处理任务。最初由 Airbnb 开发,于 2016 年捐赠给 Apache 软件基金会。Airflow 的主要特点是以代码方式定义任务及其依赖关系...

大数据-252 离线数仓 - Airflow 任务调度 Crontab简介 任务集成部署 入门案例

Linux系统是由cron(crond)系统服务来控制的,Linux系统上原本那就有非常多的计划性工作,因此这个系统服务是默认启动的。Linux系统也提供了Linux用户控制计划任务的命令:crontab命令。作用:

大数据-251 离线数仓 - Airflow 任务调度系统 安装部署测试

Apache Airflow 是一个开源的任务调度和工作流管理工具,用于编排复杂的数据处理任务。最初由 Airbnb 开发,于 2016 年捐赠给 Apache 软件基金会。Airflow 的主要特点是以代码方式定义任务及其依赖关系...

大数据-250 离线数仓 - ADS层 与 Airflow 任务调度系统

Apache Airflow 是一个开源的任务调度和工作流管理平台,主要用于开发、调试和监控数据管道。Airflow 通过使用 Python 脚本定义任务和依赖关系,帮助用户以编程的方式构建动态的、可视化的工作流。

大数据-249 离线数仓 - DWD层建表与脚本 DWS层建表与脚本

订单表是周期性事实表,为保留订单状态可使用拉链表处理;订单产品表为普通事实表。订单状态包括:-3用户拒收、-2未付款订单、-1用户取消、0等待发货、1配送中、2用户确认收货。订单从创建到完成有时间限制,业务上不允许订单一个月后状态仍变化。

大数据-248 离线数仓 - 维表:商品分类表、地域组织表、商品信息表

文章首先确定事实表与维表的区分:绿色表示事实表,灰色表示维表。维表处理方式根据数据量选择不同策略——小表采用每日快照表(如产品分类表、商家店铺表、商家地域组织表、支付方式表),大表则使用拉链表(如产品信息表)。

大数据-247 离线数仓 - Hive 拉链表实战:订单历史状态增量刷新

Hive 拉链表实战教程,讲解订单历史状态增量刷新、ODS 到 DWD 分层,结合 2020 年订单状态变更案例,说明拉链表如何处理"记录会变化、又需要保留历史"的业务对象。

大数据-246 离线数仓 - Hive 拉链表实战:初始化、增量更新、回滚脚本

离线数仓建模方式,实战讲解 Hive 拉链表实现方案,覆盖初始化装载、每日增量更新、历史版本闭链、Shell 调度脚本以及回滚恢复逻辑。

大数据-245 离线数仓 - Hive 拉链表入门实战:缓慢变化维 SCD 类型、建表加载

缓慢变化维(SCD,Slowly Changing Dimensions)展开,系统梳理 SCD Type 0、1、2、3、4、6 的核心差异,并结合 Hive 离线数仓场景说明快照表与拉链表的适用边界。

大数据-244 离线数仓 - Hive ODS 层建表与分区加载实战

通过 DataX 将 MySQL 数据同步到 HDFS 指定目录,再在 Hive 中创建 ODS 外部表,统一使用 dt 字符串分区。允许在7天内快速查询原始交易记录体现ods层什么核心特点。

大数据-243 离线数仓 - 实战电商核心交易增量导入(DataX - HDFS - Hive 分区)

场景:电商核心交易三张表做每日增量,落地离线数仓 ODS,按 dt 分区 结论:DataX 用 MySQLReader + HDFSWriter,按时间字段抽取,HDFS 目录分区化,Hive 只做分区挂载 产出:

大数据-242 离线数仓 - DataX 实战:MySQL 全量/增量导入 HDFS + Hive 分区

DataX(mysqlreader + hdfswriter)将 MySQL 电商业务库按"全量/增量"两类策略抽取到 HDFS,并在 Hive 中以 dt=yyyy-mm-dd 进行分区管理。

大数据-241 离线数仓 - 实战:电商核心交易数据模型与 MySQL 源表设计(订单/商品/品类/店铺/支付)

围绕订单数、商品数、支付金额三大指标,按销售区域与商品类型(三级品类)拆解分析维度。

大数据-240 离线数仓 广告业务 Hive ADS 实战:DataX 将 HDFS 分区表导出到 MySQL

使用 DataX 将 Hive ADS 层数据导出到 MySQL 的完整方案。涵盖 ADS 装载、DataX 配置、MySQL 建表、Shell 脚本参数化执行,以及常见报错定位与修复清单。

大数据-239 离线数仓 广告业务实战:Flume 导入日志到 HDFS,并完成 Hive ODS/DWD 分层加载

使用 Flume Agent 采集 event 日志并写入 HDFS,再通过 Hive 脚本按日期完成 ODS 层与 DWD 层的数据装载。内容覆盖 Flume Agent 的 Source、Channel、Sink 基本结构,日志文件上传...

大数据-238 离线数仓 广告业务 Hive 分析实战:ADS 点击率、购买率与 Top100 排名避坑

基于 Hive 离线数仓实现广告曝光、点击、购买的分时统计,完成点击率 CTR、购买率 CVR 与广告效果 Top100 排名分析。涵盖 ADS 层建表、分区装载、CASE WHEN 行转列、窗口函数排名等典型写法。

大数据-237 离线数仓 Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地

Hive 离线数仓广告业务实战,结合 Flume + Hive + UDF + Parquet 的典型链路,演示如何将原始事件日志从 ODS 层映射到 Hive 外部表,再在 DWD 层完成事件明细拆解、广告行为过滤与广告宽表构建。

大数据-236 离线数仓 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程

基于 Hadoop + Hive + HDFS + DataX + MySQL 的离线数仓实战,涵盖会员指标测试(活跃/新增/留存)、HDFS 导出、DataX 同步至 MySQL,以及广告业务 ODS/DWD/ADS 全流程建模。

大数据-235 离线数仓 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路

演示一套从日志采集到会员指标分析的完整链路,涵盖 Flume Taildir 监听、HDFS 分区存储、Hive 外部表加载、ODS/DWD/DWS/ADS 分层处理,支撑活跃会员、新增会员、会员留存等指标计算。

大数据-234 离线数仓 Hive ADS 导出 MySQL DataX 实战配置与踩坑速查

离线数仓 ADS 层 Hive 表导出到 MySQL 的落地链路,给出 DataX 典型方案:hdfsreader → mysqlwriter。重点覆盖 DataX JSON 配置与常见报错修复。

大数据-233 离线数仓 留存率怎么做:DWS 明细建模 + ADS 聚合落表 Hive 脚本实战

离线数仓中“会员留存“的实现方法:DWS 层通过 dwsmemberretention_day 表关联新增与启动明细表计算 1/2/3 日留存;ADS 层构建留存数表与留存率表。包含完整 Hive 建表、装载脚本及常见错误排查。

大数据-232 离线数仓 Hive 新增会员与留存计算:DWS 明细 + ADS 汇总一套跑通

离线数仓按天计算“新增会员”,并为后续“会员留存”提供口径一致的数据底座。用“全量会员表(含首日dt)”做去重锚点,DWS 产新增明细,ADS 产新增计数。

大数据-231 离线数仓 Hive 实战:DWD 到 DWS 日周月活跃会员 ADS 指标落地脚本与坑点

本文介绍使用 Hive 构建离线数仓,统计活跃会员(日活/周活/月活)的完整流程,从 DWD 明细层到 DWS 汇总层再到 ADS 应用层,涵盖建表脚本、数据装载脚本及常见错误速查。

大数据-230 离线数仓-ODS层的构建 Hive 2.3.7 JSON 解析实战:UDF 取数组 + explode/json_tuple

Hive 离线数仓中的 JSON 数据处理,覆盖三类最常见需求:1)从 JSON 串中取数组字段并在 SQL 中 explode 展开;2)从 JSON 串中同时解析普通字段(json_tuple)与数组字段(自定义 UDF);

大数据-229 离线数仓ODS 层实战:Hive 外部表分区加载与 JSON 解析(get_json_object)

离线数仓(2026)中 ODS(Operational Data Store)层的工程落地,给出 Hive 外部表(external table)+ 按天分区(partition dt)承接原始日志的最小闭环:

大数据-228 离线数仓 Flume Taildir + 自定义 Interceptor:从 JSON 提取时间戳过滤

Apache Flume 的离线日志采集链路,给出一套工程化落地:使用 Taildir Source 监控多个目录与多文件正则匹配,为不同目录日志注入 logtype 等 Header

大数据-227 离线数仓-Flume 1.9.0 自定义拦截器实战:TAILDIR 多目录采集,按 logtime 过滤

使用 TAILDIR Source 监控多个目录(start/event),通过 filegroups headers 为不同来源打上 logtype;再配合自定义 Interceptor 从日志正文解析业务时间...

大数据-226 离线数仓 Flume 优化配置实战:batchSize/Channel/压缩/自定义拦截器与 OOM 处理

Flume 1.9.0 在离线数仓(日志采集→HDFS)场景的工程化优化:从 Source→Channel→Sink 全链路给出 batchSize、Memory/File Channel 的 capacity/transactionCap...

大数据-225 离线数仓 会员指标实战:Flume Taildir HDFS ODS/DWD/DWS/ADS 全链路落地

离线数仓建设,给出"日志采集→落地→分层→指标"的工程化路径。会员以设备唯一标识(Android IMEI / iOS OpenUDID)为口径,输出新增会员、活跃会员(DAU/WAU/MAU)与留存(次日/7日/30日)等核心指标。

大数据-223 离线数仓怎么建:埋点→指标体系→主题分析任务,全链路落地指南

业务拆分(前台/运营后台/商家后台)→数据来源(启动/点击日志、下单/支付/退款等交易数据)→数据埋点(页面统计/操作统计、需求—采集—上报—清洗加工—入仓—分析—展示)→指标体系(准确/可解释/结构性、指标=基础指标+修饰词+时间段...

大数据-224 离线数仓 架构怎么选型与估算集群规模:Apache vs CDH/HDP,全组件清单+命名规范

离线数据仓库(离线数仓)总体架构设计与落地方法:框架选型对比 Apache 社区版与第三方发行版(CDH/HDP/FusionInsight),梳理数据采集(DataX/Flume/Sqoop/Logstash/Kafka)...

大数据-221 离线数仓分层实战:ODS/DWD/DWS/DIM/ADS 怎么划,数据集如何避免数据孤岛

(Offline Data Warehouse)在企业落地时最常见的两类问题:数据集市扩张导致的数据孤岛、以及数仓分层边界不清导致的重复计算与口径混乱,给出可执行的工程化拆解。

大数据-222 离线数仓建模实战:事实表/维度表、三类事实表与雪花/星座模型

离线数仓建模实践,系统梳理事实表(Fact Table)与维度表(Dimension Table)的核心概念、事实类型(可加/半可加/不可加)与粒度(交易/快照/累积快照)对查询性能与可分析性的决定性影响。

大数据-220 离线数仓 数据仓库入门:四大特征、OLTP/OLAP差异与企业数仓架构要点

1988年,IBM公司在面对企业信息系统日益分散、数据孤岛问题日益严重的背景下,首次提出了"信息仓库"(Information Warehouse)的概念。