大数据-164 Apache Kylin Cuboid 剪枝实战：Derived 维度与膨胀率控制

TL;DR

Cuboid 特指 Kylin 中在某一种维度组合下所计算的所有数据。以减少 Cuboid 数量为目的的优化统称为 Cuboid 剪枝。

4 个维度：2^4 = 16 个 Cuboid
10 个维度：2^10 = 1024 个 Cuboid
20 个维度：2^20 = 1048576 个 Cuboid

# 进入 Kylin 安装目录
cd $KYLIN_HOME

# 执行 Cuboid 统计
kylin.sh org.apache.kylin.engine.mr.common.CubeStatsReader wzk_kylin_test_cube_4

在 Model 页面选择一个 READY 状态的 Cube：

膨胀率参考：

将维度表的非主键字段设为衍生维度：

在 Kylin Cube Designer 中：

日期维度表 dim_date：

注意：日期维度字段不能是 year、month 等，需要是 dim_date 表中的字段。

Cube 类型	Cuboid 数量	构建时间	存储大小
普通维度	更多	更长	更大
衍生维度	明显更少	更短	更小

症状	根因定位	修复
膨胀率 > 1000%	Cuboid 过多/高基数维度/重度 Count Distinct	检查 GUI 体积与膨胀率；使用 StatsReader 查看体积/行数分布；禁用不命中/近似 Cuboid
构建极慢/失败	维度组合爆炸/资源与切分不匹配	查看构建 Job 日志；Segment 大小与 Mapper/Reducer 数强剪枝
StatsReader 无输出	工具类路径与版本不匹配	在 $KYLIN_HOME 执行；校验发行包中的类名
查询变慢（启用 Derived 后）	查询端二次聚合成本上升	查看查询计划/Profile；高频维度改回普通维度
某些 Cuboid 从不命中	设计与查询模式不符	查看查询日志/命中统计；在 Cube 设计中禁用该组合