标签: stream-processing

共 11 篇文章

大数据-95 Flink State 与 Checkpoint:状态管理、容错机制与 Savepoint

Flink 有状态计算详解:Keyed State、Operator State、Checkpoint 配置、Savepoint 备份与恢复、生产环境实践。

大数据-93 Flink Streaming 入门:DataStream API 与程序结构

Flink DataStream API 入门指南,程序执行流程、环境获取、数据源定义、算子链与执行模式详解,通过 WordCount 案例演示流处理程序开发。

大数据-94 Flink Window 与 Watermark:时间窗口、滚动滑动、会话窗口与迟到数据处理

Flink 时间窗口全面解析:滚动窗口、滑动窗口、会话窗口、Watermark 原理与生成策略、迟到数据处理机制。

大数据-90 Apache Flink 入门全解:流批一体的实时计算引擎

系统介绍 Apache Flink 的起源、核心特性与架构组件:JobManager、TaskManager、Dispatcher 的职责划分,流批一体处理模型,以及与 Spark Streaming 的对比选型。

大数据-89 Spark Streaming 整合 Kafka:Receiver 与 Direct 模式全解析

详解 Spark Streaming 接入 Kafka 的两种模式:基于 Receiver 的高级 API 与 Direct 直连模式的架构差异、偏移量管理、Exactly-Once 语义保证及完整 Scala 代码实现。

大数据-87 Spark DStream 转换算子详解:map、reduceByKey、transform 实战

系统梳理 Spark Streaming DStream 的无状态转换算子与 transform 高级操作,通过黑名单过滤案例演示 leftOuterJoin、SQL、广播变量三种实现方式。

大数据-88 Spark Streaming 窗口操作与状态追踪:updateStateByKey 与 mapWithState

深入讲解 Spark Streaming 有状态计算:窗口操作参数配置、reduceByKeyAndWindow 热词统计、updateStateByKey 全量状态维护与 mapWithState 增量优化,附完整 Scala 代码。

大数据-85 Spark Streaming 入门:从 DStream 到 Structured Streaming 的演进

介绍 Spark 实时计算的两代框架:DStream 微批处理模型的架构与局限,以及 Structured Streaming 如何通过无界表模型和 Catalyst 优化解决 EventTime 处理、API 一致性等问题。

大数据-86 Spark Streaming 数据源详解:文件流、Socket、RDD 队列流

全面讲解 Spark Streaming 三种基础数据源的原理与实现:文件流监控目录、Socket TCP 接入、RDD 队列模拟测试,附完整 Scala 代码示例。

大数据-69 Spark RDD 深度解析:五大特性、设计优势与典型应用场景

全面解析 Spark 核心数据抽象 RDD 的五大关键特征(分区、计算函数、依赖关系、分区器、优先位置),以及惰性求值、容错机制和窄/宽依赖的核心原理。

大数据-67 从 MapReduce 到 Spark:大数据计算引擎三代演进全景解析

系统梳理大数据处理引擎从 MapReduce 到 Spark 再到 Flink 的演进脉络,解析 Spark 内存计算模型、统一生态与核心组件,帮助快速建立 Spark 全局认知。