标签: kylin

共 10 篇文章

大数据-165 Apache Kylin Cube7 实战：聚合组/RowKey/编码与体积精度对比

覆盖 Aggregation Group（聚合组）、Mandatory Dimension（强制维度）、Hierarchy（层级维度）、Joint（联合维度）的使用取舍，并结合 CubeStatsReader 的精度/稀疏度读数与 RowKey/HBase 存储模型，说明字典编码、RowKey 顺序、ShardBy 分片对构建与查询性能的影响。

2024/10/12

大数据-166 Apache Kylin 1.6 Streaming Cubing 实战：Kafka 到分钟级 OLAP

Kafka→Kylin 的实时 OLAP 链路，面向 2025 年常见业务（电商交易、用户行为、IoT 监控）提供分钟级聚合查询。

2024/10/12

大数据-163 Apache Kylin Segment 合并实战：手动/自动合并、保留策略与 JDBC 示例

Apache Kylin Segment合并实战教程，涵盖手动MERGE Job流程、连续Segment要求、Auto Merge多级阈值策略、Retention Threshold清理逻辑、删除流程（Disable→Delete）及JDBC连接查询示例。

2024/10/11

大数据-164 Apache Kylin Cuboid 剪枝实战：Derived 维度与膨胀率控制

Cuboid 剪枝优化：当维度较多时，Cuboid 数量指数级增长，导致构建时间长与存储膨胀。工程化做法：通过 CubeStatsReader 命令核查已物化 Cuboid 的行数/体积与 Shrink 比，结合 Web GUI 的 Cube Size 与 Expansion Rate（膨胀率）判断是否需要剪枝。

2024/10/11

大数据-161 Apache Kylin Cube 实战：建模、构建与查询加速完整指南

Apache Kylin 4.0 的 Cube 建模与查询加速方法：围绕事实表与维度表完成星型建模，设计维度与度量，利用 Aggregation Group、层级维度、联合维度、必要维度等策略减少 Cuboid 组合，降低构建与存储开销；在查询侧通过 Cuboid 匹配实现秒级 OLAP。本文给出按日期/区域/产品/渠道的建模与SQL示例，说明离线批构建在 Hive+Spark+HBase 组合下的验证结果，并概览 Kafka 驱动的实时 OLAP。附带错误速查卡。

2024/10/10

大数据-162 Apache Kylin 增量 Cube 与 Segment 实战：按天分区增量构建指南

以 Hive 分区表的日期字段作为 Partition Date Column，将 Cube 拆分为多个 Segment，按区间增量构建，避免对历史数据的重复计算；并对比全量构建与增量构建在查询路径上的差异。

2024/10/10

大数据-159 Apache Kylin Cube 实战：Hive 装载与预计算加速（含 Cuboid/实时 OLAP，Kylin 4.x）

OLAP 示例：用 Python 生成维度与事实数据，经 Hive（wzk_kylin）装载后，在 Kylin 侧设计 Cube（维度/度量/Cuboid），并给出分组聚合 SQL 的验证结果。文章围绕 Kylin 的核心机制——预计算多维 Cuboid 与裁剪（Aggregation Group），解释如何在查询时快速命中已计算的结果，从而替代代价昂贵的实时聚合。并提示在实时 OLAP 场景下，Kylin 4.x 可通过 Kafka 接入流式数据，与批数据合并分析。

2024/10/9

大数据-160 Apache Kylin Cube 实战：从建模到构建与查询（含踩坑与优化）

Apache Kylin（3.x/4.x）Cube 的搭建与优化：从 DataSource → Model → Cube 的完整流程，覆盖维度建模、度量设计、Cuboid 预计算、Aggregation Group 剪枝、增量构建与查询命中。结合 HBase 列式存储与 Snappy/LZO 压缩，演示在 Hadoop/Hive 环境下的 MapReduce 构建，并说明 Kylin 4.0 的实时 OLAP（Kafka）思路与适配要点。

2024/10/9

大数据-157 Apache Kylin 全面指南：MOLAP 架构、Hive/Kafka 实战与实时 OLAP 落地

Apache Kylin 的背景、演进与工程实践，聚焦 MOLAP 方案在海量数据分析中的落地路径。核心关键词：Apache Kylin、MOLAP、Cube、Cuboid、Hive、Kafka、HBase、Spark、Flink、JDBC、ODBC、REST、星型模型、雪花模型、实时 OLAP、增量构建。按时间线梳理 2014–2019 的版本能力（V1.5 Kafka、V1.6 近实时、V2.0 雪花模型与 Spark、V2.4 Kafka+Hive JOIN、V3.0 实时 OLAP）

2024/10/8

大数据-158 Apache Kylin 3.1.1 在 Hadoop 2.9/Hive 2.3/HBase 1.3 的最小可用部署实录（含坑位与修复）

本文详细记录了在 Hadoop 2.9.2、Hive 2.3.9、HBase 1.3.1、Spark 2.4.5（without-hadoop，Scala 2.12）与三节点 ZooKeeper/YARN 环境下部署 Apache Kylin 3.1.1 的完整过程。核心要点包括：为 Kylin 补齐 core-site.xml/hdfs-site.xml/hbase-site.xml/hive-site.xml/spark-defaults.conf 软链；在 kylin.sh 中显式设置 HADOOP_HOME/HIVE_HOME/HBASE_HOME/SPARK_HOME。

2024/10/8