标签: distributed-system

共 34 篇文章

大数据-92 Flink on YARN 部署：环境准备、资源申请与任务提交

Flink 在 YARN 集群上的三种部署模式详解：Session、Application、Per-Job 模式，Hadoop 依赖配置、YARN 资源申请与任务提交流程。

2024/11/27

大数据-90 Apache Flink 入门全解：流批一体的实时计算引擎

系统介绍 Apache Flink 的起源、核心特性与架构组件：JobManager、TaskManager、Dispatcher 的职责划分，流批一体处理模型，以及与 Spark Streaming 的对比选型。

2024/11/23

大数据-84 SparkSQL 内核原理：五种 Join 策略与 Catalyst 优化器解析

深入解析 SparkSQL 的五种 Join 执行策略（BHJ、SHJ、SMJ、Cartesian、BNLJ）的选择条件与适用场景，以及 Catalyst 优化器从 SQL 解析到代码生成的完整处理流程。

2024/11/9

大数据-79 Spark Standalone 模式：架构解析与性能调优

全面讲解 Spark Standalone 集群的四大核心组件、应用提交流程、SparkContext 内部架构，以及 Shuffle 演进历史和 RDD 优化策略。

2024/11/2

大数据-76 Spark 序列化机制与 RDD 执行原理

深入讲解 Spark Driver-Executor 进程通信、Java/Kryo 序列化选型、闭包序列化问题排查，以及 RDD 依赖、Stage 划分和持久化存储级别。

2024/10/26

大数据-71 Spark 集群架构与部署模式详解

深入解析 Spark 集群核心组件 Driver、Cluster Manager、Executor 的职责，对比 Standalone、YARN、Kubernetes 部署模式，并介绍静态与动态资源分配策略。

2024/10/16

大数据-67 从 MapReduce 到 Spark：大数据计算引擎三代演进全景解析

系统梳理大数据处理引擎从 MapReduce 到 Spark 再到 Flink 的演进脉络，解析 Spark 内存计算模型、统一生态与核心组件，帮助快速建立 Spark 全局认知。

2024/10/9

大数据-66 Kafka 高性能底层原理：零拷贝、mmap 与顺序写入全解析

深入剖析 Kafka 实现高吞吐的三大 I/O 技术：sendfile 零拷贝、mmap 内存映射与页缓存顺序写入，揭秘每秒百万级消息处理背后的内核级优化。

2024/10/5

大数据-63 Kafka 副本机制详解：高可用性、ISR 原理与 Leader 选举全解析

深入剖析 Kafka 副本机制的工作原理，包括 ISR 同步节点集合的维护逻辑、Leader 选举流程，以及 unclean 选举在一致性与可用性之间的权衡。

2024/10/2

大数据-64 Kafka Exactly-Once 语义详解：幂等性、事务与精确一次消费

系统讲解 Kafka 如何通过幂等生产者和事务机制实现精确一次（Exactly-Once）语义，覆盖 PID/序列号原理、跨分区事务配置与端到端 EOS 实现方案。

2024/10/2

大数据-61 Kafka 主题、分区与消费者机制详解：从基础概念到重平衡优化

深入解析 Kafka 的 Topic、Partition、Consumer Group 核心机制，涵盖自定义反序列化、偏移量管理与重平衡优化配置，帮助构建高吞吐消息消费系统。

2024/9/28

大数据-53：Kafka 组件详解——Producer、Broker、Consumer 全流程

深入拆解 Kafka 三大核心组件的工作原理：Producer 分区策略与 ACK 机制、Broker 的 Leader/Follower 架构、Consumer Group 的分区分配与偏移量管理。

2024/9/14

大数据-51：Redis 高可用架构——主从复制与哨兵机制

深入解析 Redis 高可用实现原理，涵盖主从复制同步机制、哨兵模式自动故障转移流程，以及分布式锁设计思路，并附 Docker 部署示例。

2024/9/11

大数据-52：Kafka 架构解析——高吞吐分布式消息系统设计

系统介绍 Kafka 的核心架构设计，包括 Topic/Partition/Replica 模型、ISR 机制、零拷贝优化、消息格式与典型应用场景，理解 Kafka 实现百万级 TPS 的工程原理。

2024/9/11

大数据-49 Redis 缓存五大问题：穿透、击穿、雪崩、热 Key、大 Key 全解

系统梳理 Redis 在高并发场景下最常见的五类缓存问题：缓存穿透、缓存击穿、缓存雪崩、热 Key 和大 Key，分析每种问题的成因并给出可落地的解决方案。

2024/9/7

大数据-50 Redis Java Lua 实现乐观锁、WATCH 与 SETNX 分布式锁

Redis 乐观锁实战：WATCH/MULTI/EXEC 机制详解，Lua 脚本实现原子操作，SETNX+EXPIRE 分布式锁从基础到 Redisson，Java 代码完整示例。

2024/9/7

大数据-48 Redis 通信原理：RESP 协议与 Reactor 事件驱动模型

深入解析 Redis 的通信底层：RESP 序列化协议的五种数据类型、Pipeline 批处理模式，以及基于 epoll 的 Reactor 单线程事件驱动架构如何支撑 Redis 的高并发处理能力。

2024/9/4

大数据-42 Redis Pub/Sub 发布订阅：机制、弱事务与风险

详解 Redis 发布订阅模式的工作机制、三大弱事务缺陷（无持久化、无确认、无重试），以及在生产环境中的替代方案选择。

2024/8/24

大数据-38 Redis 分布式缓存介绍与缓存读写模式详解

介绍 Redis 的核心特性与五大数据类型，深入讲解旁路缓存、穿透模式、Write Behind 三种缓存读写模式的原理与适用场景。

2024/8/17

大数据-35 HBase 集群模式：3 节点集群配置与启动

基于上一篇单节点配置，将 HBase 分发到 3 个节点组成生产集群，介绍配置同步、集群启动、Web UI 验证及 HBase Shell 基本操作。

2024/8/14

大数据-33 HBase 整体架构：HMaster、HRegionServer 与数据模型

全面解析 HBase 分布式数据库的整体架构，包括 ZooKeeper 协调、HMaster 管理节点、HRegionServer 数据节点、Region 存储单元及四维数据模型，适合大数据架构选型参考。

2024/8/10

大数据-31 ZooKeeper Leader 选举与 ZAB 协议原理

深入解析 ZooKeeper 的 Leader 选举机制与 ZAB 原子广播协议，涵盖初始选举流程、消息广播三阶段、故障恢复策略及生产部署建议。

2024/8/7

大数据-32 ZooKeeper 分布式锁 Java 实现详解

基于 ZooKeeper 临时顺序节点实现分布式锁，附完整 Java 代码，涵盖锁竞争、前驱节点监听、CountDownLatch 同步和递归重试的完整流程。

2024/8/7

大数据-29 ZooKeeper Watcher 原理与命令行实践指南

从客户端、WatcherManager 到 ZooKeeper 服务端，完整解析 Watcher 的注册-触发-通知流程，并通过 zkCli 命令行实操演示节点的增删查改与监听。

2024/8/3

大数据-30 ZooKeeper Java API 实战：节点增删改查与监听

使用 ZkClient 库通过 Java 代码操作 ZooKeeper，实现 Session 建立、持久节点增删、子节点变更监听与数据变更监听的完整实战示例。

2024/8/3

大数据-27 ZooKeeper 集群配置详解与启动验证

深入解析 zoo.cfg 核心参数含义，讲解 myid 文件配置规范，演示 3 节点集群启动流程与 Leader 选举结果验证。

2024/7/31

大数据-28 ZooKeeper ZNode 数据结构与 Watcher 监听机制详解

深入解析 ZooKeeper 的 ZNode 四种节点类型、ZXID 事务 ID 结构，以及 Watcher 一次性触发的监听机制原理与实践。

2024/7/31

大数据-26 ZooKeeper 分布式协调框架简介与集群部署

介绍 ZooKeeper 的核心概念、Leader/Follower/Observer 角色分工、ZAB 协议原理，并演示 3 节点集群的安装与配置过程。

2024/7/27

大数据-17 Apache Flume 架构与核心概念

介绍 Apache Flume 的定位、核心组件（Source、Channel、Sink）、事件模型与常见数据流拓扑，以及安装配置方法。

2024/7/13

大数据-07 HDFS 分布式文件系统读写原理详解

深入解析 HDFS 架构：NameNode、DataNode、Client 角色分工，Block 存储机制，文件读写流程（Pipeline 写入与就近读取），以及 HDFS 基础命令速查。

2024/7/2

大数据-03 Hadoop集群 SSH免密登录配置与分发脚本

Hadoop 三节点集群 SSH 免密登录全流程：生成 RSA 密钥、分发公钥、编写 rsync 集群分发脚本，含踩坑笔记与 /etc/hosts 配置要点。

2024/6/30

大数据-04 Hadoop集群群起 NameNode DataNode YARN 启动与 Web UI 验证

Hadoop 三节点集群完整启动流程：格式化 NameNode、启动 HDFS 和 YARN，通过 Web UI 验证集群状态，含 start-dfs.sh 和 start-yarn.sh 用法。