标签: olap
共 3 篇文章
大数据-220 离线数仓 数据仓库入门:四大特征、OLTP/OLAP差异与企业数仓架构要点
文章浏览阅读4.9k次,点赞24次,收藏20次。2026年工程实践,梳理数据仓库(数仓)的核心概念与落地关注点:从企业数据孤岛出发,解释数据仓库的四大特征——面向主题(Subject Oriented)、集成(Integrated)、相对稳定/非易失(Non-Volatile)、反映历史变化/时变(Time Variant)。同时给出数据库与数据仓库的本质对比,即OLTP(联机事务处理)与OLAP(联机分析处理)的差异:OLTP强调事务一致性与高并发写入,OLAP强调历史、聚合与多维分析(星型/雪花模型)。在工程链路上,重点说明ETL/ELT、数据集成过程,包括数据清洗、转换、加载,以及数据仓库的构建方法论。数据仓库主要用于解决企业级的数据分析问题或者管理和决策,为分析数据而设计,而非取代数据库。数据仓库包含各种粒度的历史数据,数据时限远远长于操作型数据的时限,数据按照时间的顺序追加,都带有时间属性。
大数据-149 Apache Druid 实时 OLAP 架构与选型要点
Apache Druid 的实时 OLAP 实战:适合以时间为主键的事件明细、亚秒级聚合与高并发自助分析。Druid 采用列式存储与时间分区,核心组件包括 Broker、Historical、MiddleManager、Coordinator、Overlord、Router,支持流式与批量摄取(Kafka/HDFS 等),并提供 SQL/JSON 查询接口,擅长快速聚合+交互式探索。当前最新稳定版为 34.0.0(2025-08-11),建议结合自动 Compaction 与查询上下文参数进行性能与并发优化。
大数据-144 Apache Kudu:实时写 + OLAP 的架构、性能与集成
Apache Kudu 在 2025 年的版本与生态集成:最新 Kudu 1.18.0(2025/07)上线,带来分段 LRU Block Cache 与基于 RocksDB 的元数据存储(实验特性),在保证 Raft 副本一致性的同时提升热点抗抖与可扩展性;与 Impala/HMS 的集成用于低延迟 SQL;Spark 侧使用 kudu-spark3_2.12:1.18.0 对接 Spark 3.5;Flink 侧提供外部化 Kudu 连接器 2.0.0,支持 Flink 1.19/1.20。