标签: kylin
共 10 篇文章
大数据-165 Apache Kylin Cube7 实战:聚合组/RowKey/编码与体积精度对比
覆盖 Aggregation Group(聚合组)、Mandatory Dimension(强制维度)、Hierarchy(层级维度)、Joint(联合维度) 的使用取舍,并结合 CubeStatsReader 的精度/稀疏度读数与 RowKey/HBase 存储模型,说明字典编码、RowKey 顺序、ShardBy 分片对构建与查询性能的影响。
大数据-166 Apache Kylin 1.6 Streaming Cubing 实战:Kafka 到分钟级 OLAP
Kafka→Kylin 的实时 OLAP 链路,面向 2025 年常见业务(电商交易、用户行为、IoT 监控)提供分钟级聚合查询。
大数据-163 Apache Kylin Segment 合并实战:手动/自动合并、保留策略与 JDBC 示例
Apache Kylin Segment合并实战教程,涵盖手动MERGE Job流程、连续Segment要求、Auto Merge多级阈值策略、Retention Threshold清理逻辑、删除流程(Disable→Delete)及JDBC连接查询示例。
大数据-164 Apache Kylin Cuboid 剪枝实战:Derived 维度与膨胀率控制
Cuboid 剪枝优化:当维度较多时,Cuboid 数量指数级增长,导致构建时间长与存储膨胀。工程化做法:通过 CubeStatsReader 命令核查已物化 Cuboid 的行数/体积与 Shrink 比,结合 Web GUI 的 Cube Size 与 Expansion Rate(膨胀率)判断是否需要剪枝。
大数据-161 Apache Kylin Cube 实战:建模、构建与查询加速完整指南
Apache Kylin 4.0 的 Cube 建模与查询加速方法:围绕事实表与维度表完成星型建模,设计维度与度量,利用 Aggregation Group、层级维度、联合维度、必要维度等策略减少 Cuboid 组合,降低构建与存储开销;在查询侧通过 Cuboid 匹配实现秒级 OLAP。本文给出按日期/区域/产品/渠道的建模与SQL示例,说明离线批构建在 Hive+Spark+HBase 组合下的验证结果,并概览 Kafka 驱动的实时 OLAP。附带错误速查卡。
大数据-162 Apache Kylin 增量 Cube 与 Segment 实战:按天分区增量构建指南
以 Hive 分区表的日期字段作为 Partition Date Column,将 Cube 拆分为多个 Segment,按区间增量构建,避免对历史数据的重复计算;并对比全量构建与增量构建在查询路径上的差异。
大数据-159 Apache Kylin Cube 实战:Hive 装载与预计算加速(含 Cuboid/实时 OLAP,Kylin 4.x)
OLAP 示例:用 Python 生成维度与事实数据,经 Hive(wzk_kylin)装载后,在 Kylin 侧设计 Cube(维度/度量/Cuboid),并给出分组聚合 SQL 的验证结果。文章围绕 Kylin 的核心机制——预计算多维 Cuboid 与裁剪(Aggregation Group),解释如何在查询时快速命中已计算的结果,从而替代代价昂贵的实时聚合。并提示在实时 OLAP 场景下,Kylin 4.x 可通过 Kafka 接入流式数据,与批数据合并分析。
大数据-160 Apache Kylin Cube 实战:从建模到构建与查询(含踩坑与优化)
Apache Kylin(3.x/4.x)Cube 的搭建与优化:从 DataSource → Model → Cube 的完整流程,覆盖维度建模、度量设计、Cuboid 预计算、Aggregation Group 剪枝、增量构建与查询命中。结合 HBase 列式存储与 Snappy/LZO 压缩,演示在 Hadoop/Hive 环境下的 MapReduce 构建,并说明 Kylin 4.0 的实时 OLAP(Kafka)思路与适配要点。
大数据-157 Apache Kylin 全面指南:MOLAP 架构、Hive/Kafka 实战与实时 OLAP 落地
Apache Kylin 的背景、演进与工程实践,聚焦 MOLAP 方案在海量数据分析中的落地路径。核心关键词:Apache Kylin、MOLAP、Cube、Cuboid、Hive、Kafka、HBase、Spark、Flink、JDBC、ODBC、REST、星型模型、雪花模型、实时 OLAP、增量构建。按时间线梳理 2014–2019 的版本能力(V1.5 Kafka、V1.6 近实时、V2.0 雪花模型与 Spark、V2.4 Kafka+Hive JOIN、V3.0 实时 OLAP)
大数据-158 Apache Kylin 3.1.1 在 Hadoop 2.9/Hive 2.3/HBase 1.3 的最小可用部署实录(含坑位与修复)
本文详细记录了在 Hadoop 2.9.2、Hive 2.3.9、HBase 1.3.1、Spark 2.4.5(without-hadoop,Scala 2.12)与三节点 ZooKeeper/YARN 环境下部署 Apache Kylin 3.1.1 的完整过程。核心要点包括:为 Kylin 补齐 core-site.xml/hdfs-site.xml/hbase-site.xml/hive-site.xml/spark-defaults.conf 软链;在 kylin.sh 中显式设置 HADOOP_HOME/HIVE_HOME/HBASE_HOME/SPARK_HOME。