标签: etl

共 6 篇文章

大数据-220 离线数仓 数据仓库入门:四大特征、OLTP/OLAP差异与企业数仓架构要点

文章浏览阅读4.9k次,点赞24次,收藏20次。2026年工程实践,梳理数据仓库(数仓)的核心概念与落地关注点:从企业数据孤岛出发,解释数据仓库的四大特征——面向主题(Subject Oriented)、集成(Integrated)、相对稳定/非易失(Non-Volatile)、反映历史变化/时变(Time Variant)。同时给出数据库与数据仓库的本质对比,即OLTP(联机事务处理)与OLAP(联机分析处理)的差异:OLTP强调事务一致性与高并发写入,OLAP强调历史、聚合与多维分析(星型/雪花模型)。在工程链路上,重点说明ETL/ELT、数据集成过程,包括数据清洗、转换、加载,以及数据仓库的构建方法论。数据仓库主要用于解决企业级的数据分析问题或者管理和决策,为分析数据而设计,而非取代数据库。数据仓库包含各种粒度的历史数据,数据时限远远长于操作型数据的时限,数据按照时间的顺序追加,都带有时间属性。

大数据-25 Sqoop 增量导入与 CDC 变化数据捕获原理

介绍 Sqoop 的 --incremental append 增量导入机制,并深入讲解 CDC(变化数据捕获)的核心概念、捕获方式对比及 Flink CDC、Debezium 等现代方案选型。

大数据-23 Sqoop 部分导入:--query、--columns、--where 三种过滤方式

详解 Sqoop 从 MySQL 按条件导入部分数据到 HDFS 的三种方式:自定义查询、指定列、WHERE 条件过滤,并说明各自的适用场景与注意事项。

大数据-24 Sqoop 与 Hive 集成:MySQL ↔ Hive 双向数据迁移

演示使用 Sqoop 将 MySQL 数据直接导入 Hive 表,以及从 Hive 导出数据回 MySQL,涵盖 --hive-import、--create-hive-table 等关键参数的用法。

大数据-21 Sqoop 数据迁移 ETL 工具入门与安装配置

介绍 Apache Sqoop 的核心原理、使用场景及在 Hadoop 集群上的安装配置步骤,帮助快速上手 MySQL 与 HDFS/Hive 之间的批量数据迁移。

大数据-22 Sqoop 实战:MySQL 全量数据导入 HDFS

通过完整示例演示使用 Sqoop 将 MySQL 表数据全量导入 HDFS,涵盖核心参数说明、MapReduce 并行机制及执行结果验证。