标签: olap

共 3 篇文章

大数据-220 离线数仓数据仓库入门：四大特征、OLTP/OLAP差异与企业数仓架构要点

文章浏览阅读4.9k次，点赞24次，收藏20次。2026年工程实践，梳理数据仓库（数仓）的核心概念与落地关注点：从企业数据孤岛出发，解释数据仓库的四大特征——面向主题（Subject Oriented）、集成（Integrated）、相对稳定/非易失（Non-Volatile）、反映历史变化/时变（Time Variant）。同时给出数据库与数据仓库的本质对比，即OLTP（联机事务处理）与OLAP（联机分析处理）的差异：OLTP强调事务一致性与高并发写入，OLAP强调历史、聚合与多维分析（星型/雪花模型）。在工程链路上，重点说明ETL/ELT、数据集成过程，包括数据清洗、转换、加载，以及数据仓库的构建方法论。数据仓库主要用于解决企业级的数据分析问题或者管理和决策，为分析数据而设计，而非取代数据库。数据仓库包含各种粒度的历史数据，数据时限远远长于操作型数据的时限，数据按照时间的顺序追加，都带有时间属性。

2024/11/12

大数据-149 Apache Druid 实时 OLAP 架构与选型要点

Apache Druid 的实时 OLAP 实战：适合以时间为主键的事件明细、亚秒级聚合与高并发自助分析。Druid 采用列式存储与时间分区，核心组件包括 Broker、Historical、MiddleManager、Coordinator、Overlord、Router，支持流式与批量摄取（Kafka/HDFS 等），并提供 SQL/JSON 查询接口，擅长快速聚合+交互式探索。当前最新稳定版为 34.0.0（2025-08-11），建议结合自动 Compaction 与查询上下文参数进行性能与并发优化。

2024/9/27

大数据-144 Apache Kudu：实时写 + OLAP 的架构、性能与集成

Apache Kudu 在 2025 年的版本与生态集成：最新 Kudu 1.18.0（2025/07）上线，带来分段 LRU Block Cache 与基于 RocksDB 的元数据存储（实验特性），在保证 Raft 副本一致性的同时提升热点抗抖与可扩展性；与 Impala/HMS 的集成用于低延迟 SQL；Spark 侧使用 kudu-spark3_2.12:1.18.0 对接 Spark 3.5；Flink 侧提供外部化 Kudu 连接器 2.0.0，支持 Flink 1.19/1.20。

2024/9/23

标签: olap

大数据-220 离线数仓 数据仓库入门：四大特征、OLTP/OLAP差异与企业数仓架构要点

大数据-149 Apache Druid 实时 OLAP 架构与选型要点

大数据-144 Apache Kudu：实时写 + OLAP 的架构、性能与集成

大数据-220 离线数仓数据仓库入门：四大特征、OLTP/OLAP差异与企业数仓架构要点