标签: druid

共 8 篇文章

大数据-155 Apache Druid 存储与查询架构实战:Segment/Chunk/Roll-up/Bitmap 一文讲清

Apache Druid 的数据存储与高性能查询路径:从 DataSource/Chunk/Segment 的分层,到列式存储、Roll-up 预聚合、Bitmap 索引、mmap 文件映射、查询多级缓存的协同;并结合 Overlord/MiddleManager/Peon 的索引服务与 Kafka/Hadoop 深度存储场景,给出工程化落地要点与排错思路。

大数据-156 Apache Druid+Kafka 实时分析实战:JSON 拉平摄取与 SQL 指标全流程

Scala Kafka Producer 将订单/点击数据写入 Kafka Topic(示例 topic: druid2),在 Druid 中通过 Kafka Indexing Service 进行连续摄取。由于原始记录为嵌套 JSON(orders 内含 products 数组),先进行 JSON 拉平预处理,随后在 Druid 设置正确的 timestampSpec,禁用 Rollup,并以 SQL 执行核心指标:订单总数、用户总数、按状态/支付方式聚合、订单金额 TopN 等。

大数据-153 Apache Druid 实时接入 Kafka:从摄取到查询的完整实战

本文介绍Apache Druid实时接入Kafka的完整实战,以网络流量JSON为例,通过Druid控制台的Streaming/Kafka向导完成数据接入、解析时间列、设定维度与指标,并使用SQL验证结果。

大数据-154 Apache Druid 架构与组件职责全解析 版本架构:Coordinator/Overlord/Historical 实战

Apache Druid 在 0.13.0~当前(2025)的组件职责与部署要点:Coordinator 负责历史节点 Segment 的均衡/复制与生命周期管理;Overlord 调度摄入任务到 MiddleManager/Peon;Historical 提供大部分 Segment 查询;Broker 聚合并返回结果;Router 可选作统一网关;外部依赖包括 ZooKeeper、Metadata Storage(MySQL/PostgreSQL)与 Deep Storage(HDFS/对象存储/本地)。

大数据-151 Apache Druid 集群落地 [上篇] MySQL 元数据 + HDFS 深存与低配调优

Apache Druid 30.0.0 的可落地方案,覆盖 MySQL 元数据存储(mysql-connector-java 8.0.19)、HDFS 深度存储与 HDFS 上的 indexing-logs、以及 Kafka 实时摄取的混部实践。重点解释 Druid 角色划分(Coordinator/Overlord、Broker/Router、Historical、MiddleManager)、ZooKeeper 集群配置与 common.runtime.properties 关键项;给出 JVM 低配调优参数。

大数据-152 Apache Druid 集群模式 [下篇] 低内存集群实操:JVM/DirectMemory与启动脚本

三台节点上落地 Apache Druid 30.0.0 的低内存集群实践:给出 Broker/Historical/Router 的 JVM 参数与 runtime.properties 关键项,解释堆外内存与处理缓冲区的配比关系。

大数据-149 Apache Druid 实时 OLAP 架构与选型要点

Apache Druid 的实时 OLAP 实战:适合以时间为主键的事件明细、亚秒级聚合与高并发自助分析。Druid 采用列式存储与时间分区,核心组件包括 Broker、Historical、MiddleManager、Coordinator、Overlord、Router,支持流式与批量摄取(Kafka/HDFS 等),并提供 SQL/JSON 查询接口,擅长快速聚合+交互式探索。当前最新稳定版为 34.0.0(2025-08-11),建议结合自动 Compaction 与查询上下文参数进行性能与并发优化。

大数据-150 Apache Druid 单机部署实战:架构速览、启动清单与故障速修

Apache Druid 30.0.0,面向单机快速验证与工程落地,系统梳理 Druid 架构(Coordinator、Historical、Broker、Ingestion、Deep Storage),给出下载解压、环境变量、single-server 各档位(nano-quickstart/micro/small/medium/large/xlarge)启动命令与目录路径。覆盖控制台 8888 访问、ZooKeeper 2181 端口冲突排查、JVM 内存与启动参数要点,并强调列式存储、时间分区与索引对查询性能的优化作用。