标签: distributed-system

共 34 篇文章

大数据-92 Flink on YARN 部署:环境准备、资源申请与任务提交

Flink 在 YARN 集群上的三种部署模式详解:Session、Application、Per-Job 模式,Hadoop 依赖配置、YARN 资源申请与任务提交流程。

大数据-90 Apache Flink 入门全解:流批一体的实时计算引擎

系统介绍 Apache Flink 的起源、核心特性与架构组件:JobManager、TaskManager、Dispatcher 的职责划分,流批一体处理模型,以及与 Spark Streaming 的对比选型。

大数据-84 SparkSQL 内核原理:五种 Join 策略与 Catalyst 优化器解析

深入解析 SparkSQL 的五种 Join 执行策略(BHJ、SHJ、SMJ、Cartesian、BNLJ)的选择条件与适用场景,以及 Catalyst 优化器从 SQL 解析到代码生成的完整处理流程。

大数据-79 Spark Standalone 模式:架构解析与性能调优

全面讲解 Spark Standalone 集群的四大核心组件、应用提交流程、SparkContext 内部架构,以及 Shuffle 演进历史和 RDD 优化策略。

大数据-76 Spark 序列化机制与 RDD 执行原理

深入讲解 Spark Driver-Executor 进程通信、Java/Kryo 序列化选型、闭包序列化问题排查,以及 RDD 依赖、Stage 划分和持久化存储级别。

大数据-71 Spark 集群架构与部署模式详解

深入解析 Spark 集群核心组件 Driver、Cluster Manager、Executor 的职责,对比 Standalone、YARN、Kubernetes 部署模式,并介绍静态与动态资源分配策略。

大数据-67 从 MapReduce 到 Spark:大数据计算引擎三代演进全景解析

系统梳理大数据处理引擎从 MapReduce 到 Spark 再到 Flink 的演进脉络,解析 Spark 内存计算模型、统一生态与核心组件,帮助快速建立 Spark 全局认知。

大数据-66 Kafka 高性能底层原理:零拷贝、mmap 与顺序写入全解析

深入剖析 Kafka 实现高吞吐的三大 I/O 技术:sendfile 零拷贝、mmap 内存映射与页缓存顺序写入,揭秘每秒百万级消息处理背后的内核级优化。

大数据-63 Kafka 副本机制详解:高可用性、ISR 原理与 Leader 选举全解析

深入剖析 Kafka 副本机制的工作原理,包括 ISR 同步节点集合的维护逻辑、Leader 选举流程,以及 unclean 选举在一致性与可用性之间的权衡。

大数据-64 Kafka Exactly-Once 语义详解:幂等性、事务与精确一次消费

系统讲解 Kafka 如何通过幂等生产者和事务机制实现精确一次(Exactly-Once)语义,覆盖 PID/序列号原理、跨分区事务配置与端到端 EOS 实现方案。

大数据-61 Kafka 主题、分区与消费者机制详解:从基础概念到重平衡优化

深入解析 Kafka 的 Topic、Partition、Consumer Group 核心机制,涵盖自定义反序列化、偏移量管理与重平衡优化配置,帮助构建高吞吐消息消费系统。

大数据-53:Kafka 组件详解——Producer、Broker、Consumer 全流程

深入拆解 Kafka 三大核心组件的工作原理:Producer 分区策略与 ACK 机制、Broker 的 Leader/Follower 架构、Consumer Group 的分区分配与偏移量管理。

大数据-51:Redis 高可用架构——主从复制与哨兵机制

深入解析 Redis 高可用实现原理,涵盖主从复制同步机制、哨兵模式自动故障转移流程,以及分布式锁设计思路,并附 Docker 部署示例。

大数据-52:Kafka 架构解析——高吞吐分布式消息系统设计

系统介绍 Kafka 的核心架构设计,包括 Topic/Partition/Replica 模型、ISR 机制、零拷贝优化、消息格式与典型应用场景,理解 Kafka 实现百万级 TPS 的工程原理。

大数据-49 Redis 缓存五大问题:穿透、击穿、雪崩、热 Key、大 Key 全解

系统梳理 Redis 在高并发场景下最常见的五类缓存问题:缓存穿透、缓存击穿、缓存雪崩、热 Key 和大 Key,分析每种问题的成因并给出可落地的解决方案。

大数据-50 Redis Java Lua 实现乐观锁、WATCH 与 SETNX 分布式锁

Redis 乐观锁实战:WATCH/MULTI/EXEC 机制详解,Lua 脚本实现原子操作,SETNX+EXPIRE 分布式锁从基础到 Redisson,Java 代码完整示例。

大数据-48 Redis 通信原理:RESP 协议与 Reactor 事件驱动模型

深入解析 Redis 的通信底层:RESP 序列化协议的五种数据类型、Pipeline 批处理模式,以及基于 epoll 的 Reactor 单线程事件驱动架构如何支撑 Redis 的高并发处理能力。

大数据-42 Redis Pub/Sub 发布订阅:机制、弱事务与风险

详解 Redis 发布订阅模式的工作机制、三大弱事务缺陷(无持久化、无确认、无重试),以及在生产环境中的替代方案选择。

大数据-38 Redis 分布式缓存介绍与缓存读写模式详解

介绍 Redis 的核心特性与五大数据类型,深入讲解旁路缓存、穿透模式、Write Behind 三种缓存读写模式的原理与适用场景。

大数据-35 HBase 集群模式:3 节点集群配置与启动

基于上一篇单节点配置,将 HBase 分发到 3 个节点组成生产集群,介绍配置同步、集群启动、Web UI 验证及 HBase Shell 基本操作。

大数据-33 HBase 整体架构:HMaster、HRegionServer 与数据模型

全面解析 HBase 分布式数据库的整体架构,包括 ZooKeeper 协调、HMaster 管理节点、HRegionServer 数据节点、Region 存储单元及四维数据模型,适合大数据架构选型参考。

大数据-31 ZooKeeper Leader 选举与 ZAB 协议原理

深入解析 ZooKeeper 的 Leader 选举机制与 ZAB 原子广播协议,涵盖初始选举流程、消息广播三阶段、故障恢复策略及生产部署建议。

大数据-32 ZooKeeper 分布式锁 Java 实现详解

基于 ZooKeeper 临时顺序节点实现分布式锁,附完整 Java 代码,涵盖锁竞争、前驱节点监听、CountDownLatch 同步和递归重试的完整流程。

大数据-29 ZooKeeper Watcher 原理与命令行实践指南

从客户端、WatcherManager 到 ZooKeeper 服务端,完整解析 Watcher 的注册-触发-通知流程,并通过 zkCli 命令行实操演示节点的增删查改与监听。

大数据-30 ZooKeeper Java API 实战:节点增删改查与监听

使用 ZkClient 库通过 Java 代码操作 ZooKeeper,实现 Session 建立、持久节点增删、子节点变更监听与数据变更监听的完整实战示例。

大数据-27 ZooKeeper 集群配置详解与启动验证

深入解析 zoo.cfg 核心参数含义,讲解 myid 文件配置规范,演示 3 节点集群启动流程与 Leader 选举结果验证。

大数据-28 ZooKeeper ZNode 数据结构与 Watcher 监听机制详解

深入解析 ZooKeeper 的 ZNode 四种节点类型、ZXID 事务 ID 结构,以及 Watcher 一次性触发的监听机制原理与实践。

大数据-26 ZooKeeper 分布式协调框架简介与集群部署

介绍 ZooKeeper 的核心概念、Leader/Follower/Observer 角色分工、ZAB 协议原理,并演示 3 节点集群的安装与配置过程。

大数据-17 Apache Flume 架构与核心概念

介绍 Apache Flume 的定位、核心组件(Source、Channel、Sink)、事件模型与常见数据流拓扑,以及安装配置方法。

大数据-07 HDFS 分布式文件系统 读写原理详解

深入解析 HDFS 架构:NameNode、DataNode、Client 角色分工,Block 存储机制,文件读写流程(Pipeline 写入与就近读取),以及 HDFS 基础命令速查。

大数据-03 Hadoop集群 SSH免密登录配置与分发脚本

Hadoop 三节点集群 SSH 免密登录全流程:生成 RSA 密钥、分发公钥、编写 rsync 集群分发脚本,含踩坑笔记与 /etc/hosts 配置要点。

大数据-04 Hadoop集群群起 NameNode DataNode YARN 启动与 Web UI 验证

Hadoop 三节点集群完整启动流程:格式化 NameNode、启动 HDFS 和 YARN,通过 Web UI 验证集群状态,含 start-dfs.sh 和 start-yarn.sh 用法。

大数据-01 基础环境搭建:Hadoop 集群

在3台云服务器(2C4G配置)上搭建Hadoop集群环境的详细教程,包含HDFS、MapReduce、YARN组件介绍,Java和Hadoop环境配置步骤。

大数据-02 Hadoop集群 XML配置详解 core-site hdfs-site mapred-site yarn-site

详解 Hadoop 集群三节点 XML 配置文件:core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml,含 NameNode、DataNode、ResourceManager 配置说明。