博客
记录技术探索与思考 · 共 655 篇
大数据-148 Flink 写入 Kudu 实战:自定义 Sink 全流程(Flink 1.11/Kudu 1.1...
Kudu 的完整可运行示例,基于 Flink 1.11.1(Scala 2.12)/Java 11 与 kudu-client 1.17.0(2025 实测)。通过 RichSinkFunction 自定义下沉器,演示从 DataStream 映射到 Kudu Insert 的全过程:建表(INT32 主键 id、STRING name、INT32 age,哈希分区 3)、会话配置(AUTO...
大数据-59 Kafka Producer 拦截器与拦截器链机制详解
讲解 Kafka 0.10 引入的 Producer 拦截器机制,包括 onSend 和 onAcknowledgement 两个拦截点的作用、拦截器链的执行顺序与错误隔离,以及自定义拦截器的完整实现。
大数据-60 Kafka Consumer 消费流程、心跳机制与参数调优
详解 Kafka Consumer Group 的消费模型、分区分配策略、心跳保活机制,以及 session.timeout.ms、heartbeat.interval.ms、max.poll.interval.ms 等关键参数的调优实践。
大数据-146 Apache Kudu Docker 快速部署:3 Master/5 TServer 实战与踩坑速查
Apache Kudu 在 Ubuntu 22.04 云主机上的 Docker Compose 快速部署方案,覆盖 Kudu Master 与 Tablet Server 组件、KUDU_MASTERS/MASTER_ARGS/TSERVER_ARGS 关键参数、rpc_advertised_addresses 与 webserver_port(如 8051)配置,以及官方 quicksta...
大数据-147 Java 访问 Apache Kudu:从建表到 CRUD(含 KuduSession 刷新模式与...
Java 客户端(kudu-client 1.4.0)连接 Apache Kudu 多 Master(示例端口 7051/7151/7251),完成建表、插入、查询、更新、删除全流程,并对 KuduSession 刷新模式(AUTO_FLUSH_SYNC / AUTO_FLUSH_BACKGROUND / MANUAL_FLUSH)的行为差异进行要点提示。
大数据-144 Apache Kudu:实时写 + OLAP 的架构、性能与集成
Apache Kudu 在 2025 年的版本与生态集成:最新 Kudu 1.18.0(2025/07)上线,带来分段 LRU Block Cache 与基于 RocksDB 的元数据存储(实验特性),在保证 Raft 副本一致性的同时提升热点抗抖与可扩展性;与 Impala/HMS 的集成用于低延迟 SQL;Spark 侧使用 kudu-spark3_2.12:1.18.0 对接 Spar...
大数据-145 Apache Kudu 架构与实战:RowSet、分区与 Raft 全面解析
Apache Kudu 的 Master/TabletServer 架构、RowSet(MemRowSet/DiskRowSet) 写读路径、MVCC、以及 Raft 共识 在副本与故障切换中的作用;并给出 Range/Hash 多级分区 的建模思路与容量/并发权衡。2025 年最新稳定版 Kudu 1.18.0 已发布(含分段 LRU Block Cache、嵌入式 RocksDB 元数据...
大数据-143 ClickHouse 实战MergeTree 分区/TTL、物化视图、ALTER 与 system...
ClickHouse 初学与运维实战,基于真实集群(h121/h122/h123)演示从连接到建库建表的完整流程,系统讲解 MergeTree 的 ORDER BY/PRIMARY KEY/PARTITION BY/TTL 关键点;提供 Memory/分区表/临时表与视图(普通/物化/POPULATE)示例。围绕运维高频动作,整理 ALTER(新增列、类型修改、备注、删除、重命名/迁库)与分...
大数据-57 Kafka Producer 消息发送流程与核心参数详解
深入解析 Kafka Producer 初始化、消息拦截、序列化、分区路由、缓冲批量发送、ACK 确认等完整发送链路,并给出关键参数的调优建议。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-58 Kafka 序列化机制与分区策略:自定义实现详解
深入讲解 Kafka 消息序列化原理与分区路由策略,包含自定义 Serializer 和 Partitioner 的完整代码实现,帮助掌握消息精准路由与高效传输。
大数据-141 ClickHouse 副本实战 | ReplicatedMergeTree + ZooKeeper...
ClickHouse 副本全链路:ZK/Keeper 准备、macros 宏配置、集群 ON CLUSTER 一致建表、写入去重与复制机制、system.* 视图健康检查、insert_quorum 一致性、Distributed 跨分片查询;提供性能与延迟观测项、replication_queue 积压定位、典型报错处理(Not connected、Replica already exis...
大数据-142 ClickHouse分片×副本×Distributed 实战 ReplicatedMergeTre...
ClickHouse 分片×副本×Distributed 架构:基于 ReplicatedMergeTree + Distributed,在 3 分片×2 副本 集群上用 ON CLUSTER 一键建表,启用 ClickHouse Keeper/ZooKeeper 协调;给出 insert_quorum、prefer_localhost_replica、load_balancing 等关键参...
大数据-139 ClickHouse MergeTree 最佳实践:Replacing 去重、Summing 求和...
ClickHouse 两大轻聚合引擎 ReplacingMergeTree 与 SummingMergeTree,结合最小可运行示例(MRE)与对照查询,解释为何去重/求和仅在合并阶段生效,以及 SELECT … FINAL 与 OPTIMIZE FINAL 的正确使用时机与代价。文中强调 ORDER BY 作为匹配键、分区边界不跨区、Replacing 版本列取最大、Summing 非数值...
大数据-140 ClickHouse CollapsingMergeTree详解 外部数据源最小闭环HDFS/My...
ClickHouse 外部数据源引擎的最小可行方案:ENGINE=HDFS、ENGINE=MySQL、ENGINE=Kafka 的 DDL 模板、关键参数与读写链路。示范 Kafka→Materialized View→MergeTree 的实时落地,说明 HDFS 以读取为主,MySQL 写入的 replace_query/on_duplicate_clause 风险点。
大数据-137 ClickHouse MergeTree 实战指南|分区、稀疏索引与合并机制 存储结构 一级索引 ...
ClickHouse MergeTree 的关键机制:批量写入形成 part、后台合并(Compact/Wide 两种 part 形态)、ORDER BY 即稀疏主索引、index_granularity 标记密度与 primary.idx 工作原理,并对比 minmax/set/ngrambf_v1/tokenbf_v1 跳数索引的适用边界。提供一套可复制的观测与调优命令。
大数据-138 ClickHouse MergeTree 实战详解|分区裁剪 × 稀疏主键索引 × marks 标...
ClickHouse MergeTree 的存储与查询路径:列式文件(*.bin)、稀疏主键索引(primary.idx)、标记文件(.mrk/.mrk2)与 index_granularity 如何协同,实现分区裁剪与跳读,显著降低读放大并加速聚合查询。提供可复制 DDL、造数脚本与 clickhouse-compressor 统计方法。
大数据-55:Kafka 实战操作——Shell 管理命令与 Java 客户端示例
覆盖 Kafka 日常运维的 Shell 命令(主题管理、消息收发)与 Java 客户端编程(Producer/Consumer 完整代码),包含关键配置参数说明和 ConsumerRebalanceListener 使用。
大数据-56 Spring Boot 整合 Kafka 实现分布式消息收发
详解如何在 Spring Boot 项目中集成 Kafka,包括依赖配置、KafkaTemplate 同步/异步发送消息、@KafkaListener 消费消息的完整实践。
大数据-135 ClickHouse 集群连通性自检 + 数据类型避坑实战|10 分钟跑通 ON CLUSTER
三节点(h121/122/123)为例,先完成集群连通性自检:system.clusters 校验 → ON CLUSTER 创建 ReplicatedMergeTree/Distributed → 分布式写读与迷你压测,确保复制与路由正常;随后用可复制示例梳理 ClickHouse 常用数据类型:Int/Float、Decimal(加减取大、乘取和、除取被除)、String/FixedSt...
大数据-136 ClickHouse 集群 表引擎详解 选型实战:TinyLog/Log/StripeLog/Me...
梳理 ClickHouse 表引擎:TinyLog、Log、StripeLog、Memory、Merge 的原理、适用与坑点,并给出可复制的最小可运行示例与并发/文件核验脚本。通过选型决策表与 Do&Don't,帮你在小表、一次性写入、临时日志、多表聚读等场景取舍。