博客
记录技术探索与思考 · 共 655 篇
大数据-103 Spark Streaming 消费 Kafka:Offset 获取、存储与恢复详解
Spark Streaming 集成 Kafka 时,Offset 管理是保证数据处理连续性与一致性的关键环节。Offset 用于标记消息在分区中的位置,应用可通过它来控制消费进度。若在程序异常退出前未持久化保存 Offset,则会导致数据丢失或重复消费。常见管理方式包括:使用 Checkpoint 保存元数据和 Offset,支持故障恢复但存在版本兼容问题;依赖 Kafka 内置的提交机制...
大数据-104 Spark Streaming 与 Kafka 集成:Offset 管理机制详解与最佳实践 Sca...
Offset用于标记Kafka分区内消息的位置,正确管理能够实现"至少一次"甚至"仅一次"的数据处理语义。通过持久化Offset,应用在故障恢复时可从上次处理的位置继续消费,避免消息丢失或重复。
大数据-101 Spark Streaming 有状态转换详解:窗口操作与状态跟踪实战 附多案例代码
窗口操作通过设置窗口长度(windowDuration)和滑动间隔(slideDuration),在比 batchDuration 更长的时间范围内整合多个批次的数据,实现动态的流式计算。典型案例展示了如何通过 reduceByWindow 对窗口内数据进行拼接与求和,以及如何利用 reduceByKeyAndWindow 实现热点搜索词的实时统计,强调了窗口参数与批次间隔的关系。另一方面,...
大数据-102 Spark Streaming 与 Kafka 集成全解析:Receiver 与 Direct 两...
本文介绍了 Spark Streaming 与 Kafka 的两种集成方式:Receiver Approach 和 Direct Approach。Receiver 方式通过 Executor 上的 Receiver 持续接收数据,依赖 BlockManager 管理数据块,可通过 WAL 增强可靠性;Direct 方式不依赖 Receiver,直接生成与 Kafka 分区对应的 Kafka...
大数据-41 Redis 高级数据类型:Bitmap、Geo 与 Stream
深入讲解 Redis 的 Bitmap 位图、Geo 地理位置(GeoHash、Z-order 曲线、Base32 编码)与 Stream 消息流三种高级数据类型,含常用命令与实战示例。
大数据-42 Redis Pub/Sub 发布订阅:机制、弱事务与风险
详解 Redis 发布订阅模式的工作机制、三大弱事务缺陷(无持久化、无确认、无重试),以及在生产环境中的替代方案选择。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-39 Redis 源码编译安装与启动配置
在 Ubuntu 上从源码编译安装 Redis 6.2.9,配置 redis.conf 守护进程模式,启动 redis-server 并通过 redis-cli 验证连接。
大数据-40 Redis 五大数据类型命令详解与实战
全面讲解 Redis 的 String、List、Set、Sorted Set、Hash 五大数据类型的常用命令、底层特性与典型使用场景,附完整命令示例。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-37 HBase Java API 增删改查完整代码
使用 HBase Java Client API 实现建表、插入、删除、Get 查询、全表扫描与范围扫描,附完整 Maven 依赖和可运行代码示例。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-38 Redis 分布式缓存介绍与缓存读写模式详解
介绍 Redis 的核心特性与五大数据类型,深入讲解旁路缓存、穿透模式、Write Behind 三种缓存读写模式的原理与适用场景。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-35 HBase 集群模式:3 节点集群配置与启动
基于上一篇单节点配置,将 HBase 分发到 3 个节点组成生产集群,介绍配置同步、集群启动、Web UI 验证及 HBase Shell 基本操作。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-36 HBase 增删改查与列族设计详解
深入讲解 HBase 列族设计原则、Shell 操作实战,涵盖建表、插入、查询、更新、删除完整流程,附生产级列族配置示例。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-33 HBase 整体架构:HMaster、HRegionServer 与数据模型
全面解析 HBase 分布式数据库的整体架构,包括 ZooKeeper 协调、HMaster 管理节点、HRegionServer 数据节点、Region 存储单元及四维数据模型,适合大数据架构选型参考。
大数据-34 HBase 单节点配置:hbase-env 与 hbase-site.xml 详解
手把手配置 HBase 单节点环境,详解 hbase-env.sh、hbase-site.xml 关键参数,完成与 Hadoop HDFS 和 ZooKeeper 集群的对接。
大数据-31 ZooKeeper Leader 选举与 ZAB 协议原理
深入解析 ZooKeeper 的 Leader 选举机制与 ZAB 原子广播协议,涵盖初始选举流程、消息广播三阶段、故障恢复策略及生产部署建议。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-32 ZooKeeper 分布式锁 Java 实现详解
基于 ZooKeeper 临时顺序节点实现分布式锁,附完整 Java 代码,涵盖锁竞争、前驱节点监听、CountDownLatch 同步和递归重试的完整流程。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-29 ZooKeeper Watcher 原理与命令行实践指南
从客户端、WatcherManager 到 ZooKeeper 服务端,完整解析 Watcher 的注册-触发-通知流程,并通过 zkCli 命令行实操演示节点的增删查改与监听。
大数据-30 ZooKeeper Java API 实战:节点增删改查与监听
使用 ZkClient 库通过 Java 代码操作 ZooKeeper,实现 Session 建立、持久节点增删、子节点变更监听与数据变更监听的完整实战示例。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-27 ZooKeeper 集群配置详解与启动验证
深入解析 zoo.cfg 核心参数含义,讲解 myid 文件配置规范,演示 3 节点集群启动流程与 Leader 选举结果验证。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-28 ZooKeeper ZNode 数据结构与 Watcher 监听机制详解
深入解析 ZooKeeper 的 ZNode 四种节点类型、ZXID 事务 ID 结构,以及 Watcher 一次性触发的监听机制原理与实践。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。