标签: kylin

共 10 篇文章

大数据-165 Apache Kylin Cube7 实战:聚合组/RowKey/编码与体积精度对比

覆盖 Aggregation Group(聚合组)、Mandatory Dimension(强制维度)、Hierarchy(层级维度)、Joint(联合维度) 的使用取舍,并结合 CubeStatsReader 的精度/稀疏度读数与 Row...

大数据-166 Apache Kylin 1.6 Streaming Cubing 实战:Kafka 到分钟级 OLAP

Kafka→Kylin 的实时 OLAP 链路,面向 2025 年常见业务(电商交易、用户行为、IoT 监控)提供分钟级聚合查询。

大数据-163 Apache Kylin Segment 合并实战:手动/自动合并、保留策略与 JDBC 示例

Apache Kylin Segment合并实战教程,涵盖手动MERGE Job流程、连续Segment要求、Auto Merge多级阈值策略、Retention Threshold清理逻辑、删除流程(Disable→Delete)及JDB...

大数据-164 Apache Kylin Cuboid 剪枝实战:Derived 维度与膨胀率控制

Cuboid 剪枝优化:当维度较多时,Cuboid 数量指数级增长,导致构建时间长与存储膨胀。工程化做法:通过 CubeStatsReader 命令核查已物化 Cuboid 的行数/体积与 Shrink 比...

大数据-161 Apache Kylin Cube 实战:建模、构建与查询加速完整指南

Apache Kylin 4.0 的 Cube 建模与查询加速方法:围绕事实表与维度表完成星型建模,设计维度与度量,利用 Aggregation Group、层级维度、联合维度、必要维度等策略减少 Cuboid 组合,降低构建与存储开销;

大数据-162 Apache Kylin 增量 Cube 与 Segment 实战:按天分区增量构建指南

以 Hive 分区表的日期字段作为 Partition Date Column,将 Cube 拆分为多个 Segment,按区间增量构建,避免对历史数据的重复计算;并对比全量构建与增量构建在查询路径上的差异。

大数据-159 Apache Kylin Cube 实战:Hive 装载与预计算加速(含 Cuboid/实时 OLAP)

OLAP 示例:用 Python 生成维度与事实数据,经 Hive(wzk_kylin)装载后,在 Kylin 侧设计 Cube(维度/度量/Cuboid),并给出分组聚合 SQL 的验证结果。

大数据-160 Apache Kylin Cube 实战:从建模到构建与查询(含踩坑与优化)

Apache Kylin(3.x/4.x)Cube 的搭建与优化:从 DataSource → Model → Cube 的完整流程,覆盖维度建模、度量设计、Cuboid 预计算、Aggregation Group 剪枝、增量构建与查询命中。

大数据-157 Apache Kylin 全面指南:MOLAP 架构、Hive/Kafka 实战与实时 OLAP 落地

Apache Kylin 的背景、演进与工程实践,聚焦 MOLAP 方案在海量数据分析中的落地路径。核心关键词:Apache Kylin、MOLAP、Cube、Cuboid、Hive、Kafka、HBase、Spark、Flink、JDBC...

大数据-158 Apache Kylin 3.1.1 在 Hadoop 2.9/Hive 2.3/HBase 1.3/Spark 2.4 环境部署实战

本文详细记录了在 Hadoop 2.9.2、Hive 2.3.9、HBase 1.3.1、Spark 2.4.5(without-hadoop,Scala 2.12)与三节点 ZooKeeper/YARN 环境下部署 Apache Kyli...