微光实验室 · 标签归档

标签: kylin

共 10 篇文章，按主题汇总相关教程、案例、工程实践和阶段性总结。

大数据-165 Apache Kylin Cube7 实战：聚合组/RowKey/编码与体积精度对比

覆盖 Aggregation Group（聚合组）、Mandatory Dimension（强制维度）、Hierarchy（层级维度）、Joint（联合维度）的使用取舍，并结合 CubeStatsReader 的精度/稀疏度读数与 Row...

Kafka→Kylin 的实时 OLAP 链路，面向 2025 年常见业务（电商交易、用户行为、IoT 监控）提供分钟级聚合查询。

Apache Kylin Segment合并实战教程，涵盖手动MERGE Job流程、连续Segment要求、Auto Merge多级阈值策略、Retention Threshold清理逻辑、删除流程（Disable→Delete）及JDB...

Cuboid 剪枝优化：当维度较多时，Cuboid 数量指数级增长，导致构建时间长与存储膨胀。工程化做法：通过 CubeStatsReader 命令核查已物化 Cuboid 的行数/体积与 Shrink 比...

Apache Kylin 4.0 的 Cube 建模与查询加速方法：围绕事实表与维度表完成星型建模，设计维度与度量，利用 Aggregation Group、层级维度、联合维度、必要维度等策略减少 Cuboid 组合，降低构建与存储开销；

以 Hive 分区表的日期字段作为 Partition Date Column，将 Cube 拆分为多个 Segment，按区间增量构建，避免对历史数据的重复计算；并对比全量构建与增量构建在查询路径上的差异。

OLAP 示例：用 Python 生成维度与事实数据，经 Hive（wzk_kylin）装载后，在 Kylin 侧设计 Cube（维度/度量/Cuboid），并给出分组聚合 SQL 的验证结果。

Apache Kylin（3.x/4.x）Cube 的搭建与优化：从 DataSource → Model → Cube 的完整流程，覆盖维度建模、度量设计、Cuboid 预计算、Aggregation Group 剪枝、增量构建与查询命中。

Apache Kylin 的背景、演进与工程实践，聚焦 MOLAP 方案在海量数据分析中的落地路径。核心关键词：Apache Kylin、MOLAP、Cube、Cuboid、Hive、Kafka、HBase、Spark、Flink、JDBC...

本文详细记录了在 Hadoop 2.9.2、Hive 2.3.9、HBase 1.3.1、Spark 2.4.5（without-hadoop，Scala 2.12）与三节点 ZooKeeper/YARN 环境下部署 Apache Kyli...