博客

大数据-60 Kafka Consumer 消费流程、心跳机制与参数调优

详解 Kafka Consumer Group 的消费模型、分区分配策略、心跳保活机制，以及 session.timeout.ms、heartbeat.interval.ms、max.poll.interval.ms 等关键参数的调优实践。

2024/9/25

big-dataclickhousemergetree

大数据-146 Apache Kudu Docker 快速部署：3 Master/5 TServer 实战与踩坑速查

Apache Kudu 在 Ubuntu 22.04 云主机上的 Docker Compose 快速部署方案，覆盖 Kudu Master 与 Tablet Server 组件、KUDU_MASTERS/MASTER_ARGS/TSERVER_ARGS 关键参数、rpc_advertised_addresses 与 webserver_port（如 8051）配置，以及官方 quicksta...

2024/9/24

big-datakududocker

大数据-147 Java 访问 Apache Kudu：从建表到 CRUD（含 KuduSession 刷新模式与...

Java 客户端（kudu-client 1.4.0）连接 Apache Kudu 多 Master（示例端口 7051/7151/7251），完成建表、插入、查询、更新、删除全流程，并对 KuduSession 刷新模式（AUTO_FLUSH_SYNC / AUTO_FLUSH_BACKGROUND / MANUAL_FLUSH）的行为差异进行要点提示。

2024/9/24

big-datakudujava

大数据-144 Apache Kudu：实时写 + OLAP 的架构、性能与集成

Apache Kudu 在 2025 年的版本与生态集成：最新 Kudu 1.18.0（2025/07）上线，带来分段 LRU Block Cache 与基于 RocksDB 的元数据存储（实验特性），在保证 Raft 副本一致性的同时提升热点抗抖与可扩展性；与 Impala/HMS 的集成用于低延迟 SQL；Spark 侧使用 kudu-spark3_2.12:1.18.0 对接 Spar...

2024/9/23

big-datakuduolap

大数据-145 Apache Kudu 架构与实战：RowSet、分区与 Raft 全面解析

Apache Kudu 的 Master/TabletServer 架构、RowSet（MemRowSet/DiskRowSet）写读路径、MVCC、以及 Raft 共识在副本与故障切换中的作用；并给出 Range/Hash 多级分区的建模思路与容量/并发权衡。2025 年最新稳定版 Kudu 1.18.0 已发布（含分段 LRU Block Cache、嵌入式 RocksDB 元数据...

2024/9/23

big-datakuduraft

大数据-143 ClickHouse 实战MergeTree 分区/TTL、物化视图、ALTER 与 system...

ClickHouse 初学与运维实战，基于真实集群（h121/h122/h123）演示从连接到建库建表的完整流程，系统讲解 MergeTree 的 ORDER BY/PRIMARY KEY/PARTITION BY/TTL 关键点；提供 Memory/分区表/临时表与视图（普通/物化/POPULATE）示例。围绕运维高频动作，整理 ALTER（新增列、类型修改、备注、删除、重命名/迁库）与分...

2024/9/21

大数据-57 Kafka Producer 消息发送流程与核心参数详解

深入解析 Kafka Producer 初始化、消息拦截、序列化、分区路由、缓冲批量发送、ACK 确认等完整发送链路，并给出关键参数的调优建议。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/9/21

大数据-58 Kafka 序列化机制与分区策略：自定义实现详解

深入讲解 Kafka 消息序列化原理与分区路由策略，包含自定义 Serializer 和 Partitioner 的完整代码实现，帮助掌握消息精准路由与高效传输。

2024/9/21

big-dataclickhousezookeeper

大数据-141 ClickHouse 副本实战 | ReplicatedMergeTree + ZooKeeper...

ClickHouse 副本全链路：ZK/Keeper 准备、macros 宏配置、集群 ON CLUSTER 一致建表、写入去重与复制机制、system.* 视图健康检查、insert_quorum 一致性、Distributed 跨分片查询；提供性能与延迟观测项、replication_queue 积压定位、典型报错处理（Not connected、Replica already exis...

2024/9/20

大数据-142 ClickHouse分片×副本×Distributed 实战 ReplicatedMergeTre...

ClickHouse 分片×副本×Distributed 架构：基于 ReplicatedMergeTree + Distributed，在 3 分片×2 副本集群上用 ON CLUSTER 一键建表，启用 ClickHouse Keeper/ZooKeeper 协调；给出 insert_quorum、prefer_localhost_replica、load_balancing 等关键参...

2024/9/20

big-dataclickhousedistributed

大数据-139 ClickHouse MergeTree 最佳实践：Replacing 去重、Summing 求和...

ClickHouse 两大轻聚合引擎 ReplacingMergeTree 与 SummingMergeTree，结合最小可运行示例（MRE）与对照查询，解释为何去重/求和仅在合并阶段生效，以及 SELECT … FINAL 与 OPTIMIZE FINAL 的正确使用时机与代价。文中强调 ORDER BY 作为匹配键、分区边界不跨区、Replacing 版本列取最大、Summing 非数值...

2024/9/19

大数据-140 ClickHouse CollapsingMergeTree详解外部数据源最小闭环HDFS/My...

ClickHouse 外部数据源引擎的最小可行方案：ENGINE=HDFS、ENGINE=MySQL、ENGINE=Kafka 的 DDL 模板、关键参数与读写链路。示范 Kafka→Materialized View→MergeTree 的实时落地，说明 HDFS 以读取为主，MySQL 写入的 replace_query/on_duplicate_clause 风险点。

2024/9/19

big-dataclickhousehadoop

大数据-137 ClickHouse MergeTree 实战指南｜分区、稀疏索引与合并机制存储结构一级索引 ...

ClickHouse MergeTree 的关键机制：批量写入形成 part、后台合并（Compact/Wide 两种 part 形态）、ORDER BY 即稀疏主索引、index_granularity 标记密度与 primary.idx 工作原理，并对比 minmax/set/ngrambf_v1/tokenbf_v1 跳数索引的适用边界。提供一套可复制的观测与调优命令。

大数据-138 ClickHouse MergeTree 实战详解｜分区裁剪 × 稀疏主键索引 × marks 标...

ClickHouse MergeTree 的存储与查询路径：列式文件（*.bin）、稀疏主键索引（primary.idx）、标记文件（.mrk/.mrk2）与 index_granularity 如何协同，实现分区裁剪与跳读，显著降低读放大并加速聚合查询。提供可复制 DDL、造数脚本与 clickhouse-compressor 统计方法。

大数据-55：Kafka 实战操作——Shell 管理命令与 Java 客户端示例

覆盖 Kafka 日常运维的 Shell 命令（主题管理、消息收发）与 Java 客户端编程（Producer/Consumer 完整代码），包含关键配置参数说明和 ConsumerRebalanceListener 使用。

big-datakafkamessagingjavadata-engineering

大数据-56 Spring Boot 整合 Kafka 实现分布式消息收发

详解如何在 Spring Boot 项目中集成 Kafka，包括依赖配置、KafkaTemplate 同步/异步发送消息、@KafkaListener 消费消息的完整实践。

big-datakafkaspring-bootjavamessaging

大数据-135 ClickHouse 集群连通性自检 + 数据类型避坑实战｜10 分钟跑通 ON CLUSTER

三节点（h121/122/123）为例，先完成集群连通性自检：system.clusters 校验 → ON CLUSTER 创建 ReplicatedMergeTree/Distributed → 分布式写读与迷你压测，确保复制与路由正常；随后用可复制示例梳理 ClickHouse 常用数据类型：Int/Float、Decimal（加减取大、乘取和、除取被除）、String/FixedSt...

2024/9/14

大数据-136 ClickHouse 集群表引擎详解选型实战：TinyLog/Log/StripeLog/Me...

梳理 ClickHouse 表引擎：TinyLog、Log、StripeLog、Memory、Merge 的原理、适用与坑点，并给出可复制的最小可运行示例与并发/文件核验脚本。通过选型决策表与 Do&Don't，帮你在小表、一次性写入、临时日志、多表聚读等场景取舍。

2024/9/14