标签: data-engineering

共 59 篇文章

大数据电商分析 - Hive 拉链表实战：订单历史状态增量刷新与闭链逻辑

离线数仓中需要低成本保存订单历史状态，同时支持按天回溯与变化分析。本文介绍用 ODS 日增量表 + DWD 拉链表实现订单历史追踪，包含初始化、增量刷新 SQL、闭链规则与常见错误速查。

2026/3/15

大数据-95 Flink State 与 Checkpoint：状态管理、容错机制与 Savepoint

Flink 有状态计算详解：Keyed State、Operator State、Checkpoint 配置、Savepoint 备份与恢复、生产环境实践。

2024/12/4

大数据-93 Flink Streaming 入门：DataStream API 与程序结构

Flink DataStream API 入门指南，程序执行流程、环境获取、数据源定义、算子链与执行模式详解，通过 WordCount 案例演示流处理程序开发。

2024/11/30

大数据-94 Flink Window 与 Watermark：时间窗口、滚动滑动、会话窗口与迟到数据处理

Flink 时间窗口全面解析：滚动窗口、滑动窗口、会话窗口、Watermark 原理与生成策略、迟到数据处理机制。

2024/11/30

大数据-91 Flink 安装部署：Local、Standalone、YARN 三种模式详解

Apache Flink 本地安装、Standalone 集群部署、与 YARN 集成三种部署模式完整教程，包含环境配置、参数调优与常见问题解决。

2024/11/27

大数据-92 Flink on YARN 部署：环境准备、资源申请与任务提交

Flink 在 YARN 集群上的三种部署模式详解：Session、Application、Per-Job 模式，Hadoop 依赖配置、YARN 资源申请与任务提交流程。

2024/11/27

大数据-90 Apache Flink 入门全解：流批一体的实时计算引擎

系统介绍 Apache Flink 的起源、核心特性与架构组件：JobManager、TaskManager、Dispatcher 的职责划分，流批一体处理模型，以及与 Spark Streaming 的对比选型。

2024/11/23

大数据-89 Spark Streaming 整合 Kafka：Receiver 与 Direct 模式全解析

详解 Spark Streaming 接入 Kafka 的两种模式：基于 Receiver 的高级 API 与 Direct 直连模式的架构差异、偏移量管理、Exactly-Once 语义保证及完整 Scala 代码实现。

2024/11/20

大数据-87 Spark DStream 转换算子详解：map、reduceByKey、transform 实战

系统梳理 Spark Streaming DStream 的无状态转换算子与 transform 高级操作，通过黑名单过滤案例演示 leftOuterJoin、SQL、广播变量三种实现方式。

2024/11/16

大数据-88 Spark Streaming 窗口操作与状态追踪：updateStateByKey 与 mapWithState

深入讲解 Spark Streaming 有状态计算：窗口操作参数配置、reduceByKeyAndWindow 热词统计、updateStateByKey 全量状态维护与 mapWithState 增量优化，附完整 Scala 代码。

2024/11/16

大数据-85 Spark Streaming 入门：从 DStream 到 Structured Streaming 的演进

介绍 Spark 实时计算的两代框架：DStream 微批处理模型的架构与局限，以及 Structured Streaming 如何通过无界表模型和 Catalyst 优化解决 EventTime 处理、API 一致性等问题。

2024/11/13

大数据-86 Spark Streaming 数据源详解：文件流、Socket、RDD 队列流

全面讲解 Spark Streaming 三种基础数据源的原理与实现：文件流监控目录、Socket TCP 接入、RDD 队列模拟测试，附完整 Scala 代码示例。

2024/11/13

大数据-83 SparkSQL 语句实战：DataFrame 操作、SQL 查询与 Hive 集成

介绍 SparkSQL 的核心使用方式，包括 DataFrame API、SQL 查询语法、lateral view explode 等高级功能，以及如何通过 enableHiveSupport 集成 Hive 元数据与读写 Hive 表。

2024/11/9

大数据-84 SparkSQL 内核原理：五种 Join 策略与 Catalyst 优化器解析

深入解析 SparkSQL 的五种 Join 执行策略（BHJ、SHJ、SMJ、Cartesian、BNLJ）的选择条件与适用场景，以及 Catalyst 优化器从 SQL 解析到代码生成的完整处理流程。

2024/11/9

大数据-81 SparkSQL 核心抽象：RDD、DataFrame、Dataset 与 SparkSession 详解

深入对比 Spark 三大数据抽象 RDD、DataFrame、Dataset 的特性与适用场景，介绍 SparkSession 统一入口，并演示各抽象之间的相互转换方法。

2024/11/6

大数据-82 SparkSQL 算子详解：Transformation 与 Action 操作实战

系统梳理 SparkSQL 的 Transformation 和 Action 算子，涵盖 select、filter、join、groupBy、union 等操作，并通过实际测试用例演示其用法与性能优化技巧。

2024/11/6

大数据-79 Spark Standalone 模式：架构解析与性能调优

全面讲解 Spark Standalone 集群的四大核心组件、应用提交流程、SparkContext 内部架构，以及 Shuffle 演进历史和 RDD 优化策略。

2024/11/2

大数据-80 SparkSQL 入门：SQL 与分布式计算的融合

系统介绍 SparkSQL 的演进历史、核心抽象 DataFrame/Dataset、Catalyst 优化器原理，以及与 Hive/HDFS 多数据源集成的实战用法。

2024/11/2

大数据-77 Spark RDD 容错机制：Checkpoint 原理与最佳实践

详解 Spark Checkpoint 的执行流程、与 persist/cache 的核心区别、分区器策略，以及在迭代算法和长依赖链场景下的最佳使用实践。

2024/10/30

大数据-78 Spark 广播变量：高效共享只读数据

详解 Spark 广播变量的工作原理、配置参数与最佳实践，以及利用广播实现 MapSideJoin 替代 shuffle join 的性能优化方案。

2024/10/30

大数据-75 Spark Super WordCount：文本清洗 + 词频统计 + MySQL 持久化

实现一个完整的生产级词频统计流水线：小写转换、标点去除、停用词过滤、词频计数，最终通过 foreachPartition 高效写入 MySQL，对比逐条插入与分区批量写入的性能差异。

2024/10/26

大数据-73 Spark + Scala 实现 WordCount 入门实践

使用 Spark + Scala 和 Spark + Java 两种方式实现分布式 WordCount，详解 RDD 五步处理流程、Maven 项目配置和 spark-submit 提交命令。

2024/10/23

大数据-74 Spark Scala 实战：蒙特卡洛求 Pi 与共同好友分析

通过两个经典案例深入 Spark RDD 编程：蒙特卡洛方法分布式估算 π 值，以及两种思路实现社交网络共同好友分析，对比笛卡尔积与数据变换的性能差异。

2024/10/23

大数据-72 Spark Action 操作全景解析

全面介绍 Spark RDD 的 Action 操作，涵盖数据收集、统计聚合、元素检索、存储写出等类别，并详解 Key-Value RDD 的 groupByKey、reduceByKey、join 等核心算子。

2024/10/19

大数据-71 Spark 集群架构与部署模式详解

深入解析 Spark 集群核心组件 Driver、Cluster Manager、Executor 的职责，对比 Standalone、YARN、Kubernetes 部署模式，并介绍静态与动态资源分配策略。

2024/10/16

大数据-69 Spark RDD 深度解析：五大特性、设计优势与典型应用场景

全面解析 Spark 核心数据抽象 RDD 的五大关键特征（分区、计算函数、依赖关系、分区器、优先位置），以及惰性求值、容错机制和窄/宽依赖的核心原理。

2024/10/12

大数据-70 Spark RDD 创建与 Transformation 操作全攻略

详解 Spark RDD 的三种创建方式（parallelize、textFile、从已有 RDD 转换），以及 map、filter、flatMap、groupBy、sortBy 等常用 Transformation 算子的使用与惰性求值原理。

2024/10/12

大数据-67 从 MapReduce 到 Spark：大数据计算引擎三代演进全景解析

系统梳理大数据处理引擎从 MapReduce 到 Spark 再到 Flink 的演进脉络，解析 Spark 内存计算模型、统一生态与核心组件，帮助快速建立 Spark 全局认知。

2024/10/9

大数据-68 Spark 分布式环境搭建：从下载配置到多节点集群部署

手把手搭建 Apache Spark 分布式计算环境，涵盖下载解压、环境变量配置、slaves/spark-env.sh 核心配置文件调整，以及三节点集群分发启动的完整流程。

2024/10/9

大数据-65 Kafka 存储机制深度解析：日志分段、索引原理与消息保留策略

深入分析 Kafka 的日志存储架构，包括 LogSegment 分段设计、稀疏偏移量索引与时间戳索引的工作原理、消息查找流程，以及日志保留与清理策略配置。

2024/10/5

大数据-62 Kafka Topic 管理与运维实战：命令详解 + 副本分配策略 + Java API

全面介绍 Kafka Topic 的运维管理方法，包括 kafka-topics.sh 命令操作、副本均衡分配算法原理，以及 KafkaAdminClient Java API 的核心用法。

2024/9/28

大数据-55：Kafka 实战操作——Shell 管理命令与 Java 客户端示例

覆盖 Kafka 日常运维的 Shell 命令（主题管理、消息收发）与 Java 客户端编程（Producer/Consumer 完整代码），包含关键配置参数说明和 ConsumerRebalanceListener 使用。

2024/9/18

大数据-54：Kafka 安装部署——从 ZooKeeper 到 KRaft 的架构演进

介绍 Kafka 2.x 与 3.x 的核心差异，详细讲解集群安装步骤、ZooKeeper 配置、Broker 参数设置，以及 KRaft 模式如何彻底替代 ZooKeeper 依赖。

2024/9/14

大数据-47 Redis 内存管理：过期键删除与内存淘汰策略详解

全面解析 Redis 的内存控制机制，包括 maxmemory 配置、键过期的三种删除策略（惰性/主动/定时），以及 8 种内存淘汰策略的适用场景与选型建议。

2024/9/4

大数据-45 Redis 持久化机制详解：RDB 与 AOF 对比

系统对比 Redis 两种持久化方案：RDB 快照与 AOF 日志的配置方式、触发机制、优缺点，以及 AOF 重写机制和生产环境的推荐策略。

2024/8/31

大数据-46 Redis 持久化之 RDB：快照原理、配置与优缺点

深入解析 Redis RDB 持久化机制，涵盖触发方式、BGSAVE 执行流程、配置参数、文件结构及与 AOF 的对比，帮助你在生产环境中做出合理的持久化选型。

2024/8/31

大数据-44 Redis 慢查询日志与性能调优实践

详解 Redis 慢查询日志的配置参数（slowlog-log-slower-than、slowlog-max-len）、核心命令，以及数据结构优化、Pipeline、监控体系等生产级性能调优策略。

2024/8/28

大数据-41 Redis 高级数据类型：Bitmap、Geo 与 Stream

深入讲解 Redis 的 Bitmap 位图、Geo 地理位置（GeoHash、Z-order 曲线、Base32 编码）与 Stream 消息流三种高级数据类型，含常用命令与实战示例。

2024/8/24

大数据-39 Redis 源码编译安装与启动配置

在 Ubuntu 上从源码编译安装 Redis 6.2.9，配置 redis.conf 守护进程模式，启动 redis-server 并通过 redis-cli 验证连接。

2024/8/21

大数据-40 Redis 五大数据类型命令详解与实战

全面讲解 Redis 的 String、List、Set、Sorted Set、Hash 五大数据类型的常用命令、底层特性与典型使用场景，附完整命令示例。

2024/8/21

大数据-37 HBase Java API 增删改查完整代码

使用 HBase Java Client API 实现建表、插入、删除、Get 查询、全表扫描与范围扫描，附完整 Maven 依赖和可运行代码示例。

2024/8/17

大数据-35 HBase 集群模式：3 节点集群配置与启动

基于上一篇单节点配置，将 HBase 分发到 3 个节点组成生产集群，介绍配置同步、集群启动、Web UI 验证及 HBase Shell 基本操作。

2024/8/14

大数据-36 HBase 增删改查与列族设计详解

深入讲解 HBase 列族设计原则、Shell 操作实战，涵盖建表、插入、查询、更新、删除完整流程，附生产级列族配置示例。

2024/8/14

大数据-33 HBase 整体架构：HMaster、HRegionServer 与数据模型

全面解析 HBase 分布式数据库的整体架构，包括 ZooKeeper 协调、HMaster 管理节点、HRegionServer 数据节点、Region 存储单元及四维数据模型，适合大数据架构选型参考。

2024/8/10

大数据-34 HBase 单节点配置：hbase-env 与 hbase-site.xml 详解

手把手配置 HBase 单节点环境，详解 hbase-env.sh、hbase-site.xml 关键参数，完成与 Hadoop HDFS 和 ZooKeeper 集群的对接。

2024/8/10

大数据-25 Sqoop 增量导入与 CDC 变化数据捕获原理

介绍 Sqoop 的 --incremental append 增量导入机制，并深入讲解 CDC（变化数据捕获）的核心概念、捕获方式对比及 Flink CDC、Debezium 等现代方案选型。

2024/7/27

大数据-23 Sqoop 部分导入：--query、--columns、--where 三种过滤方式

详解 Sqoop 从 MySQL 按条件导入部分数据到 HDFS 的三种方式：自定义查询、指定列、WHERE 条件过滤，并说明各自的适用场景与注意事项。

2024/7/24

大数据-24 Sqoop 与 Hive 集成：MySQL ↔ Hive 双向数据迁移

演示使用 Sqoop 将 MySQL 数据直接导入 Hive 表，以及从 Hive 导出数据回 MySQL，涵盖 --hive-import、--create-hive-table 等关键参数的用法。

2024/7/24

大数据-21 Sqoop 数据迁移 ETL 工具入门与安装配置

介绍 Apache Sqoop 的核心原理、使用场景及在 Hadoop 集群上的安装配置步骤，帮助快速上手 MySQL 与 HDFS/Hive 之间的批量数据迁移。

2024/7/20

大数据-22 Sqoop 实战：MySQL 全量数据导入 HDFS

通过完整示例演示使用 Sqoop 将 MySQL 表数据全量导入 HDFS，涵盖核心参数说明、MapReduce 并行机制及执行结果验证。

2024/7/20

大数据-19 Flume 采集 Hive 日志到 HDFS

使用 Flume exec source 实时追踪 Hive 日志文件，通过 memory channel 缓冲，配置 HDFS sink 按时间分区写入，实现日志数据自动落盘 HDFS。

2024/7/17

大数据-20 Flume 双 Sink：日志同时写入 HDFS 与本地文件

通过 Flume 复制模式（Replicating Channel Selector）和三 Agent 级联架构，实现一份日志数据同时写入 HDFS 和本地文件，满足离线分析与实时备份双重需求。

2024/7/17

大数据-17 Apache Flume 架构与核心概念

介绍 Apache Flume 的定位、核心组件（Source、Channel、Sink）、事件模型与常见数据流拓扑，以及安装配置方法。

2024/7/13

大数据-18 Flume 入门：NetCat Source + Memory Channel + Logger Sink

通过 Flume 最简单的 Hello World 案例，使用 netcat source 监听端口、memory channel 缓冲、logger sink 控制台输出，演示完整的 Source→Channel→Sink 数据流。

2024/7/13

大数据-15 Hive Metastore 三种模式与远程部署

详解 Hive Metastore 的内嵌、本地、远程三种部署模式的区别，以及在三节点集群上配置高可用远程 Metastore 的完整步骤。

2024/7/10

大数据-16 Hive HiveServer2 配置与 Beeline 远程连接

介绍 HiveServer2 的架构与作用，配置 Hadoop 代理用户和 WebHDFS，通过 Beeline 客户端实现跨节点 JDBC 远程访问 Hive。

2024/7/10

大数据-13 Hive DDL 与 DML 操作实战

系统讲解 Hive 的 DDL（建库建表、内部表与外部表）和 DML（数据加载、插入、查询）操作，包含完整 HiveQL 示例与配置优化。

2024/7/8

大数据-14 Hive HQL 进阶：数据导入导出与查询实战

深入讲解 Hive 的多种数据导入方式（LOAD/INSERT/外部表/Sqoop）、数据导出方法，以及聚合、过滤、排序等 HQL 查询操作的实际用法。

2024/7/8

大数据-12 Hive 入门：架构原理与集群安装

介绍 Hive 数据仓库的核心概念、架构组成与优缺点，并详细讲解在三节点 Hadoop 集群上安装配置 Hive 2.3.9 的完整步骤。

2024/7/4