标签: stream-processing

共 11 篇文章

大数据-95 Flink State 与 Checkpoint：状态管理、容错机制与 Savepoint

Flink 有状态计算详解：Keyed State、Operator State、Checkpoint 配置、Savepoint 备份与恢复、生产环境实践。

Flink DataStream API 入门指南，程序执行流程、环境获取、数据源定义、算子链与执行模式详解，通过 WordCount 案例演示流处理程序开发。

Flink 时间窗口全面解析：滚动窗口、滑动窗口、会话窗口、Watermark 原理与生成策略、迟到数据处理机制。

系统介绍 Apache Flink 的起源、核心特性与架构组件：JobManager、TaskManager、Dispatcher 的职责划分，流批一体处理模型，以及与 Spark Streaming 的对比选型。

详解 Spark Streaming 接入 Kafka 的两种模式：基于 Receiver 的高级 API 与 Direct 直连模式的架构差异、偏移量管理、Exactly-Once 语义保证及完整 Scala 代码实现。

系统梳理 Spark Streaming DStream 的无状态转换算子与 transform 高级操作，通过黑名单过滤案例演示 leftOuterJoin、SQL、广播变量三种实现方式。

深入讲解 Spark Streaming 有状态计算：窗口操作参数配置、reduceByKeyAndWindow 热词统计、updateStateByKey 全量状态维护与 mapWithState 增量优化，附完整 Scala 代码。

介绍 Spark 实时计算的两代框架：DStream 微批处理模型的架构与局限，以及 Structured Streaming 如何通过无界表模型和 Catalyst 优化解决 EventTime 处理、API 一致性等问题。

全面讲解 Spark Streaming 三种基础数据源的原理与实现：文件流监控目录、Socket TCP 接入、RDD 队列模拟测试，附完整 Scala 代码示例。

全面解析 Spark 核心数据抽象 RDD 的五大关键特征（分区、计算函数、依赖关系、分区器、优先位置），以及惰性求值、容错机制和窄/宽依赖的核心原理。

系统梳理大数据处理引擎从 MapReduce 到 Spark 再到 Flink 的演进脉络，解析 Spark 内存计算模型、统一生态与核心组件，帮助快速建立 Spark 全局认知。