标签: data-engineering

共 59 篇文章

大数据电商分析 - Hive 拉链表实战:订单历史状态增量刷新与闭链逻辑

离线数仓中需要低成本保存订单历史状态,同时支持按天回溯与变化分析。本文介绍用 ODS 日增量表 + DWD 拉链表实现订单历史追踪,包含初始化、增量刷新 SQL、闭链规则与常见错误速查。

大数据-95 Flink State 与 Checkpoint:状态管理、容错机制与 Savepoint

Flink 有状态计算详解:Keyed State、Operator State、Checkpoint 配置、Savepoint 备份与恢复、生产环境实践。

大数据-93 Flink Streaming 入门:DataStream API 与程序结构

Flink DataStream API 入门指南,程序执行流程、环境获取、数据源定义、算子链与执行模式详解,通过 WordCount 案例演示流处理程序开发。

大数据-94 Flink Window 与 Watermark:时间窗口、滚动滑动、会话窗口与迟到数据处理

Flink 时间窗口全面解析:滚动窗口、滑动窗口、会话窗口、Watermark 原理与生成策略、迟到数据处理机制。

大数据-91 Flink 安装部署:Local、Standalone、YARN 三种模式详解

Apache Flink 本地安装、Standalone 集群部署、与 YARN 集成三种部署模式完整教程,包含环境配置、参数调优与常见问题解决。

大数据-92 Flink on YARN 部署:环境准备、资源申请与任务提交

Flink 在 YARN 集群上的三种部署模式详解:Session、Application、Per-Job 模式,Hadoop 依赖配置、YARN 资源申请与任务提交流程。

大数据-90 Apache Flink 入门全解:流批一体的实时计算引擎

系统介绍 Apache Flink 的起源、核心特性与架构组件:JobManager、TaskManager、Dispatcher 的职责划分,流批一体处理模型,以及与 Spark Streaming 的对比选型。

大数据-89 Spark Streaming 整合 Kafka:Receiver 与 Direct 模式全解析

详解 Spark Streaming 接入 Kafka 的两种模式:基于 Receiver 的高级 API 与 Direct 直连模式的架构差异、偏移量管理、Exactly-Once 语义保证及完整 Scala 代码实现。

大数据-87 Spark DStream 转换算子详解:map、reduceByKey、transform 实战

系统梳理 Spark Streaming DStream 的无状态转换算子与 transform 高级操作,通过黑名单过滤案例演示 leftOuterJoin、SQL、广播变量三种实现方式。

大数据-88 Spark Streaming 窗口操作与状态追踪:updateStateByKey 与 mapWithState

深入讲解 Spark Streaming 有状态计算:窗口操作参数配置、reduceByKeyAndWindow 热词统计、updateStateByKey 全量状态维护与 mapWithState 增量优化,附完整 Scala 代码。

大数据-85 Spark Streaming 入门:从 DStream 到 Structured Streaming 的演进

介绍 Spark 实时计算的两代框架:DStream 微批处理模型的架构与局限,以及 Structured Streaming 如何通过无界表模型和 Catalyst 优化解决 EventTime 处理、API 一致性等问题。

大数据-86 Spark Streaming 数据源详解:文件流、Socket、RDD 队列流

全面讲解 Spark Streaming 三种基础数据源的原理与实现:文件流监控目录、Socket TCP 接入、RDD 队列模拟测试,附完整 Scala 代码示例。

大数据-83 SparkSQL 语句实战:DataFrame 操作、SQL 查询与 Hive 集成

介绍 SparkSQL 的核心使用方式,包括 DataFrame API、SQL 查询语法、lateral view explode 等高级功能,以及如何通过 enableHiveSupport 集成 Hive 元数据与读写 Hive 表。

大数据-84 SparkSQL 内核原理:五种 Join 策略与 Catalyst 优化器解析

深入解析 SparkSQL 的五种 Join 执行策略(BHJ、SHJ、SMJ、Cartesian、BNLJ)的选择条件与适用场景,以及 Catalyst 优化器从 SQL 解析到代码生成的完整处理流程。

大数据-81 SparkSQL 核心抽象:RDD、DataFrame、Dataset 与 SparkSession 详解

深入对比 Spark 三大数据抽象 RDD、DataFrame、Dataset 的特性与适用场景,介绍 SparkSession 统一入口,并演示各抽象之间的相互转换方法。

大数据-82 SparkSQL 算子详解:Transformation 与 Action 操作实战

系统梳理 SparkSQL 的 Transformation 和 Action 算子,涵盖 select、filter、join、groupBy、union 等操作,并通过实际测试用例演示其用法与性能优化技巧。

大数据-79 Spark Standalone 模式:架构解析与性能调优

全面讲解 Spark Standalone 集群的四大核心组件、应用提交流程、SparkContext 内部架构,以及 Shuffle 演进历史和 RDD 优化策略。

大数据-80 SparkSQL 入门:SQL 与分布式计算的融合

系统介绍 SparkSQL 的演进历史、核心抽象 DataFrame/Dataset、Catalyst 优化器原理,以及与 Hive/HDFS 多数据源集成的实战用法。

大数据-77 Spark RDD 容错机制:Checkpoint 原理与最佳实践

详解 Spark Checkpoint 的执行流程、与 persist/cache 的核心区别、分区器策略,以及在迭代算法和长依赖链场景下的最佳使用实践。

大数据-78 Spark 广播变量:高效共享只读数据

详解 Spark 广播变量的工作原理、配置参数与最佳实践,以及利用广播实现 MapSideJoin 替代 shuffle join 的性能优化方案。

大数据-75 Spark Super WordCount:文本清洗 + 词频统计 + MySQL 持久化

实现一个完整的生产级词频统计流水线:小写转换、标点去除、停用词过滤、词频计数,最终通过 foreachPartition 高效写入 MySQL,对比逐条插入与分区批量写入的性能差异。

大数据-73 Spark + Scala 实现 WordCount 入门实践

使用 Spark + Scala 和 Spark + Java 两种方式实现分布式 WordCount,详解 RDD 五步处理流程、Maven 项目配置和 spark-submit 提交命令。

大数据-74 Spark Scala 实战:蒙特卡洛求 Pi 与共同好友分析

通过两个经典案例深入 Spark RDD 编程:蒙特卡洛方法分布式估算 π 值,以及两种思路实现社交网络共同好友分析,对比笛卡尔积与数据变换的性能差异。

大数据-72 Spark Action 操作全景解析

全面介绍 Spark RDD 的 Action 操作,涵盖数据收集、统计聚合、元素检索、存储写出等类别,并详解 Key-Value RDD 的 groupByKey、reduceByKey、join 等核心算子。

大数据-71 Spark 集群架构与部署模式详解

深入解析 Spark 集群核心组件 Driver、Cluster Manager、Executor 的职责,对比 Standalone、YARN、Kubernetes 部署模式,并介绍静态与动态资源分配策略。

大数据-69 Spark RDD 深度解析:五大特性、设计优势与典型应用场景

全面解析 Spark 核心数据抽象 RDD 的五大关键特征(分区、计算函数、依赖关系、分区器、优先位置),以及惰性求值、容错机制和窄/宽依赖的核心原理。

大数据-70 Spark RDD 创建与 Transformation 操作全攻略

详解 Spark RDD 的三种创建方式(parallelize、textFile、从已有 RDD 转换),以及 map、filter、flatMap、groupBy、sortBy 等常用 Transformation 算子的使用与惰性求值原理。

大数据-67 从 MapReduce 到 Spark:大数据计算引擎三代演进全景解析

系统梳理大数据处理引擎从 MapReduce 到 Spark 再到 Flink 的演进脉络,解析 Spark 内存计算模型、统一生态与核心组件,帮助快速建立 Spark 全局认知。

大数据-68 Spark 分布式环境搭建:从下载配置到多节点集群部署

手把手搭建 Apache Spark 分布式计算环境,涵盖下载解压、环境变量配置、slaves/spark-env.sh 核心配置文件调整,以及三节点集群分发启动的完整流程。

大数据-65 Kafka 存储机制深度解析:日志分段、索引原理与消息保留策略

深入分析 Kafka 的日志存储架构,包括 LogSegment 分段设计、稀疏偏移量索引与时间戳索引的工作原理、消息查找流程,以及日志保留与清理策略配置。

大数据-62 Kafka Topic 管理与运维实战:命令详解 + 副本分配策略 + Java API

全面介绍 Kafka Topic 的运维管理方法,包括 kafka-topics.sh 命令操作、副本均衡分配算法原理,以及 KafkaAdminClient Java API 的核心用法。

大数据-55:Kafka 实战操作——Shell 管理命令与 Java 客户端示例

覆盖 Kafka 日常运维的 Shell 命令(主题管理、消息收发)与 Java 客户端编程(Producer/Consumer 完整代码),包含关键配置参数说明和 ConsumerRebalanceListener 使用。

大数据-54:Kafka 安装部署——从 ZooKeeper 到 KRaft 的架构演进

介绍 Kafka 2.x 与 3.x 的核心差异,详细讲解集群安装步骤、ZooKeeper 配置、Broker 参数设置,以及 KRaft 模式如何彻底替代 ZooKeeper 依赖。

大数据-47 Redis 内存管理:过期键删除与内存淘汰策略详解

全面解析 Redis 的内存控制机制,包括 maxmemory 配置、键过期的三种删除策略(惰性/主动/定时),以及 8 种内存淘汰策略的适用场景与选型建议。

大数据-45 Redis 持久化机制详解:RDB 与 AOF 对比

系统对比 Redis 两种持久化方案:RDB 快照与 AOF 日志的配置方式、触发机制、优缺点,以及 AOF 重写机制和生产环境的推荐策略。

大数据-46 Redis 持久化之 RDB:快照原理、配置与优缺点

深入解析 Redis RDB 持久化机制,涵盖触发方式、BGSAVE 执行流程、配置参数、文件结构及与 AOF 的对比,帮助你在生产环境中做出合理的持久化选型。

大数据-44 Redis 慢查询日志与性能调优实践

详解 Redis 慢查询日志的配置参数(slowlog-log-slower-than、slowlog-max-len)、核心命令,以及数据结构优化、Pipeline、监控体系等生产级性能调优策略。

大数据-41 Redis 高级数据类型:Bitmap、Geo 与 Stream

深入讲解 Redis 的 Bitmap 位图、Geo 地理位置(GeoHash、Z-order 曲线、Base32 编码)与 Stream 消息流三种高级数据类型,含常用命令与实战示例。

大数据-39 Redis 源码编译安装与启动配置

在 Ubuntu 上从源码编译安装 Redis 6.2.9,配置 redis.conf 守护进程模式,启动 redis-server 并通过 redis-cli 验证连接。

大数据-40 Redis 五大数据类型命令详解与实战

全面讲解 Redis 的 String、List、Set、Sorted Set、Hash 五大数据类型的常用命令、底层特性与典型使用场景,附完整命令示例。

大数据-37 HBase Java API 增删改查完整代码

使用 HBase Java Client API 实现建表、插入、删除、Get 查询、全表扫描与范围扫描,附完整 Maven 依赖和可运行代码示例。

大数据-35 HBase 集群模式:3 节点集群配置与启动

基于上一篇单节点配置,将 HBase 分发到 3 个节点组成生产集群,介绍配置同步、集群启动、Web UI 验证及 HBase Shell 基本操作。

大数据-36 HBase 增删改查与列族设计详解

深入讲解 HBase 列族设计原则、Shell 操作实战,涵盖建表、插入、查询、更新、删除完整流程,附生产级列族配置示例。

大数据-33 HBase 整体架构:HMaster、HRegionServer 与数据模型

全面解析 HBase 分布式数据库的整体架构,包括 ZooKeeper 协调、HMaster 管理节点、HRegionServer 数据节点、Region 存储单元及四维数据模型,适合大数据架构选型参考。

大数据-34 HBase 单节点配置:hbase-env 与 hbase-site.xml 详解

手把手配置 HBase 单节点环境,详解 hbase-env.sh、hbase-site.xml 关键参数,完成与 Hadoop HDFS 和 ZooKeeper 集群的对接。

大数据-25 Sqoop 增量导入与 CDC 变化数据捕获原理

介绍 Sqoop 的 --incremental append 增量导入机制,并深入讲解 CDC(变化数据捕获)的核心概念、捕获方式对比及 Flink CDC、Debezium 等现代方案选型。

大数据-23 Sqoop 部分导入:--query、--columns、--where 三种过滤方式

详解 Sqoop 从 MySQL 按条件导入部分数据到 HDFS 的三种方式:自定义查询、指定列、WHERE 条件过滤,并说明各自的适用场景与注意事项。

大数据-24 Sqoop 与 Hive 集成:MySQL ↔ Hive 双向数据迁移

演示使用 Sqoop 将 MySQL 数据直接导入 Hive 表,以及从 Hive 导出数据回 MySQL,涵盖 --hive-import、--create-hive-table 等关键参数的用法。

大数据-21 Sqoop 数据迁移 ETL 工具入门与安装配置

介绍 Apache Sqoop 的核心原理、使用场景及在 Hadoop 集群上的安装配置步骤,帮助快速上手 MySQL 与 HDFS/Hive 之间的批量数据迁移。

大数据-22 Sqoop 实战:MySQL 全量数据导入 HDFS

通过完整示例演示使用 Sqoop 将 MySQL 表数据全量导入 HDFS,涵盖核心参数说明、MapReduce 并行机制及执行结果验证。

大数据-19 Flume 采集 Hive 日志到 HDFS

使用 Flume exec source 实时追踪 Hive 日志文件,通过 memory channel 缓冲,配置 HDFS sink 按时间分区写入,实现日志数据自动落盘 HDFS。

大数据-20 Flume 双 Sink:日志同时写入 HDFS 与本地文件

通过 Flume 复制模式(Replicating Channel Selector)和三 Agent 级联架构,实现一份日志数据同时写入 HDFS 和本地文件,满足离线分析与实时备份双重需求。

大数据-17 Apache Flume 架构与核心概念

介绍 Apache Flume 的定位、核心组件(Source、Channel、Sink)、事件模型与常见数据流拓扑,以及安装配置方法。

大数据-18 Flume 入门:NetCat Source + Memory Channel + Logger Sink

通过 Flume 最简单的 Hello World 案例,使用 netcat source 监听端口、memory channel 缓冲、logger sink 控制台输出,演示完整的 Source→Channel→Sink 数据流。

大数据-15 Hive Metastore 三种模式与远程部署

详解 Hive Metastore 的内嵌、本地、远程三种部署模式的区别,以及在三节点集群上配置高可用远程 Metastore 的完整步骤。

大数据-16 Hive HiveServer2 配置与 Beeline 远程连接

介绍 HiveServer2 的架构与作用,配置 Hadoop 代理用户和 WebHDFS,通过 Beeline 客户端实现跨节点 JDBC 远程访问 Hive。

大数据-13 Hive DDL 与 DML 操作实战

系统讲解 Hive 的 DDL(建库建表、内部表与外部表)和 DML(数据加载、插入、查询)操作,包含完整 HiveQL 示例与配置优化。

大数据-14 Hive HQL 进阶:数据导入导出与查询实战

深入讲解 Hive 的多种数据导入方式(LOAD/INSERT/外部表/Sqoop)、数据导出方法,以及聚合、过滤、排序等 HQL 查询操作的实际用法。

大数据-12 Hive 入门:架构原理与集群安装

介绍 Hive 数据仓库的核心概念、架构组成与优缺点,并详细讲解在三节点 Hadoop 集群上安装配置 Hive 2.3.9 的完整步骤。