标签: kudu
共 5 篇文章
大数据-148 Flink 写入 Kudu 实战:自定义 Sink 全流程(Flink 1.11/Kudu 1.17/Java 11)
Kudu 的完整可运行示例,基于 Flink 1.11.1(Scala 2.12)/Java 11 与 kudu-client 1.17.0(2025 实测)。通过 RichSinkFunction 自定义下沉器,演示从 DataStream 映射到 Kudu Insert 的全过程:建表(INT32 主键 id、STRING name、INT32 age,哈希分区 3)、会话配置(AUTO_FLUSH_BACKGROUND)、作业启动与验证。文中同时点出工程侧关键坑:逐列 apply 导致缺列/重复提交
大数据-146 Apache Kudu Docker 快速部署:3 Master/5 TServer 实战与踩坑速查
Apache Kudu 在 Ubuntu 22.04 云主机上的 Docker Compose 快速部署方案,覆盖 Kudu Master 与 Tablet Server 组件、KUDU_MASTERS/MASTER_ARGS/TSERVER_ARGS 关键参数、rpc_advertised_addresses 与 webserver_port(如 8051)配置,以及官方 quickstart.yml 的 3 Master / 4~5 TServer 拓扑。文中强调 NTP 时钟同步、文件系统 Hole Punching 支持等关键配置。
大数据-147 Java 访问 Apache Kudu:从建表到 CRUD(含 KuduSession 刷新模式与多 Master 配置)
Java 客户端(kudu-client 1.4.0)连接 Apache Kudu 多 Master(示例端口 7051/7151/7251),完成建表、插入、查询、更新、删除全流程,并对 KuduSession 刷新模式(AUTO_FLUSH_SYNC / AUTO_FLUSH_BACKGROUND / MANUAL_FLUSH)的行为差异进行要点提示。
大数据-144 Apache Kudu:实时写 + OLAP 的架构、性能与集成
Apache Kudu 在 2025 年的版本与生态集成:最新 Kudu 1.18.0(2025/07)上线,带来分段 LRU Block Cache 与基于 RocksDB 的元数据存储(实验特性),在保证 Raft 副本一致性的同时提升热点抗抖与可扩展性;与 Impala/HMS 的集成用于低延迟 SQL;Spark 侧使用 kudu-spark3_2.12:1.18.0 对接 Spark 3.5;Flink 侧提供外部化 Kudu 连接器 2.0.0,支持 Flink 1.19/1.20。
大数据-145 Apache Kudu 架构与实战:RowSet、分区与 Raft 全面解析
Apache Kudu 的 Master/TabletServer 架构、RowSet(MemRowSet/DiskRowSet) 写读路径、MVCC、以及 Raft 共识 在副本与故障切换中的作用;并给出 Range/Hash 多级分区 的建模思路与容量/并发权衡。2025 年最新稳定版 Kudu 1.18.0 已发布(含分段 LRU Block Cache、嵌入式 RocksDB 元数据等改进),建议在 Hadoop/Impala 生态中评估升级窗口与兼容性。