博客
记录技术探索与思考 · 共 655 篇
大数据-159 Apache Kylin Cube 实战:Hive 装载与预计算加速(含 Cuboid/实时 OL...
OLAP 示例:用 Python 生成维度与事实数据,经 Hive(wzk_kylin)装载后,在 Kylin 侧设计 Cube(维度/度量/Cuboid),并给出分组聚合 SQL 的验证结果。文章围绕 Kylin 的核心机制——预计算多维 Cuboid 与裁剪(Aggregation Group),解释如何在查询时快速命中已计算的结果,从而替代代价昂贵的实时聚合。并提示在实时 OLAP 场...
大数据-160 Apache Kylin Cube 实战:从建模到构建与查询(含踩坑与优化)
Apache Kylin(3.x/4.x)Cube 的搭建与优化:从 DataSource → Model → Cube 的完整流程,覆盖维度建模、度量设计、Cuboid 预计算、Aggregation Group 剪枝、增量构建与查询命中。结合 HBase 列式存储与 Snappy/LZO 压缩,演示在 Hadoop/Hive 环境下的 MapReduce 构建,并说明 Kylin 4.0...
大数据-67 从 MapReduce 到 Spark:大数据计算引擎三代演进全景解析
系统梳理大数据处理引擎从 MapReduce 到 Spark 再到 Flink 的演进脉络,解析 Spark 内存计算模型、统一生态与核心组件,帮助快速建立 Spark 全局认知。
大数据-68 Spark 分布式环境搭建:从下载配置到多节点集群部署
手把手搭建 Apache Spark 分布式计算环境,涵盖下载解压、环境变量配置、slaves/spark-env.sh 核心配置文件调整,以及三节点集群分发启动的完整流程。
大数据-157 Apache Kylin 全面指南:MOLAP 架构、Hive/Kafka 实战与实时 OLAP 落地
Apache Kylin 的背景、演进与工程实践,聚焦 MOLAP 方案在海量数据分析中的落地路径。核心关键词:Apache Kylin、MOLAP、Cube、Cuboid、Hive、Kafka、HBase、Spark、Flink、JDBC、ODBC、REST、星型模型、雪花模型、实时 OLAP、增量构建。按时间线梳理 2014–2019 的版本能力(V1.5 Kafka、V1.6 近实时、...
大数据-158 Apache Kylin 3.1.1 在 Hadoop 2.9/Hive 2.3/HBase 1....
本文详细记录了在 Hadoop 2.9.2、Hive 2.3.9、HBase 1.3.1、Spark 2.4.5(without-hadoop,Scala 2.12)与三节点 ZooKeeper/YARN 环境下部署 Apache Kylin 3.1.1 的完整过程。核心要点包括:为 Kylin 补齐 core-site.xml/hdfs-site.xml/hbase-site.xml/hi...
大数据-65 Kafka 存储机制深度解析:日志分段、索引原理与消息保留策略
深入分析 Kafka 的日志存储架构,包括 LogSegment 分段设计、稀疏偏移量索引与时间戳索引的工作原理、消息查找流程,以及日志保留与清理策略配置。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-66 Kafka 高性能底层原理:零拷贝、mmap 与顺序写入全解析
深入剖析 Kafka 实现高吞吐的三大 I/O 技术:sendfile 零拷贝、mmap 内存映射与页缓存顺序写入,揭秘每秒百万级消息处理背后的内核级优化。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-63 Kafka 副本机制详解:高可用性、ISR 原理与 Leader 选举全解析
深入剖析 Kafka 副本机制的工作原理,包括 ISR 同步节点集合的维护逻辑、Leader 选举流程,以及 unclean 选举在一致性与可用性之间的权衡。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-64 Kafka Exactly-Once 语义详解:幂等性、事务与精确一次消费
系统讲解 Kafka 如何通过幂等生产者和事务机制实现精确一次(Exactly-Once)语义,覆盖 PID/序列号原理、跨分区事务配置与端到端 EOS 实现方案。
大数据-155 Apache Druid 存储与查询架构实战:Segment/Chunk/Roll-up/Bitm...
Apache Druid 的数据存储与高性能查询路径:从 DataSource/Chunk/Segment 的分层,到列式存储、Roll-up 预聚合、Bitmap 索引、mmap 文件映射、查询多级缓存的协同;并结合 Overlord/MiddleManager/Peon 的索引服务与 Kafka/Hadoop 深度存储场景,给出工程化落地要点与排错思路。
大数据-156 Apache Druid+Kafka 实时分析实战:JSON 拉平摄取与 SQL 指标全流程
Scala Kafka Producer 将订单/点击数据写入 Kafka Topic(示例 topic: druid2),在 Druid 中通过 Kafka Indexing Service 进行连续摄取。由于原始记录为嵌套 JSON(orders 内含 products 数组),先进行 JSON 拉平预处理,随后在 Druid 设置正确的 timestampSpec,禁用 Rollup,...
大数据-153 Apache Druid 实时接入 Kafka:从摄取到查询的完整实战
本文介绍Apache Druid实时接入Kafka的完整实战,以网络流量JSON为例,通过Druid控制台的Streaming/Kafka向导完成数据接入、解析时间列、设定维度与指标,并使用SQL验证结果。
大数据-154 Apache Druid 架构与组件职责全解析 版本架构:Coordinator/Overlord...
Apache Druid 在 0.13.0~当前(2025)的组件职责与部署要点:Coordinator 负责历史节点 Segment 的均衡/复制与生命周期管理;Overlord 调度摄入任务到 MiddleManager/Peon;Historical 提供大部分 Segment 查询;Broker 聚合并返回结果;Router 可选作统一网关;外部依赖包括 ZooKeeper、Meta...
大数据-151 Apache Druid 集群落地 [上篇] MySQL 元数据 + HDFS 深存与低配调优
Apache Druid 30.0.0 的可落地方案,覆盖 MySQL 元数据存储(mysql-connector-java 8.0.19)、HDFS 深度存储与 HDFS 上的 indexing-logs、以及 Kafka 实时摄取的混部实践。重点解释 Druid 角色划分(Coordinator/Overlord、Broker/Router、Historical、MiddleManage...
大数据-152 Apache Druid 集群模式 [下篇] 低内存集群实操:JVM/DirectMemory与启动脚本
三台节点上落地 Apache Druid 30.0.0 的低内存集群实践:给出 Broker/Historical/Router 的 JVM 参数与 runtime.properties 关键项,解释堆外内存与处理缓冲区的配比关系。
大数据-61 Kafka 主题、分区与消费者机制详解:从基础概念到重平衡优化
深入解析 Kafka 的 Topic、Partition、Consumer Group 核心机制,涵盖自定义反序列化、偏移量管理与重平衡优化配置,帮助构建高吞吐消息消费系统。
大数据-62 Kafka Topic 管理与运维实战:命令详解 + 副本分配策略 + Java API
全面介绍 Kafka Topic 的运维管理方法,包括 kafka-topics.sh 命令操作、副本均衡分配算法原理,以及 KafkaAdminClient Java API 的核心用法。
大数据-149 Apache Druid 实时 OLAP 架构与选型要点
Apache Druid 的实时 OLAP 实战:适合以时间为主键的事件明细、亚秒级聚合与高并发自助分析。Druid 采用列式存储与时间分区,核心组件包括 Broker、Historical、MiddleManager、Coordinator、Overlord、Router,支持流式与批量摄取(Kafka/HDFS 等),并提供 SQL/JSON 查询接口,擅长快速聚合+交互式探索。当前最新...
大数据-150 Apache Druid 单机部署实战:架构速览、启动清单与故障速修
Apache Druid 30.0.0,面向单机快速验证与工程落地,系统梳理 Druid 架构(Coordinator、Historical、Broker、Ingestion、Deep Storage),给出下载解压、环境变量、single-server 各档位(nano-quickstart/micro/small/medium/large/xlarge)启动命令与目录路径。覆盖控制台 8...