博客

记录技术探索与思考 · 共 655 篇

全部 big-data java ai artificial-intelligence programmer-life machine-learning mysql data-engineering 后端 flink distributed architecture python data-warehouse robotics spark hive kafka scala distributed-system llm 数据库 hdfs embodied-ai deep-learning spring 消息队列 langchain system-architecture mybatis performance-optimization elasticsearch mongodb health redis spring-boot rabbitmq mq hadoop elk flume stream-processing 事务 hbase messaging rpc 教程 sklearn caching large-language-model 缓存 dubbo java-rabbitmq clickhouse kylin mllib neo4j sql realtime-warehouse canal 索引微服务 tomcat programmer multimodal tesla zookeeper druid datax orm shardingsphere ioc nutrition robot-arm indie-dev nginx fastdfs rocketmq time-management applications career-growth etl guava java-rocketmq 优化 learning quantization middleware docker kudu logstash decision-tree sqoop airflow 分库分表分片 mycat 存储引擎一致性 fat-loss gpt product-manager coffee business-analysis automation algorithm career-and-growth computer-vision autonomous-driving fsd qwen mapreduce crud backend 分布式事务并发事务失效图数据库 memcached netty innodb salary career-development cold-shower running productivity luckin medical industrial lfp lfp-battery battery ev fitness career-personal-growth ocr deepseek deepseek-ocr programming-language cloud-native yarn datastream jdbc olap knn linear-regression numpy monitoring griffin 设计模式数据映射读写分离主从复制高可用安全源码分析 cql evcache servlet aop 负载均衡手写 nio mindfulness meditation exercise muscle-gain reinforcement-learning agent conflict evaluation money-management consumption social-media dating memory price-war cotti ptq qat qlora qwen2.5-vl multi-dimensional history industrial-robot agriculture hardware simulation sector ros deployment slam visual-inspection linux window raft kibana regularization logistic-regression prometheus exporter zipper-table atlas state-management devops server maven 注解开发 sharding-jdbc cap 2pc 3pc xa saga acid bson explain 慢查询副本集部署认证集群 oss 阿里云源码 netflix 异步 jms paxos rmi engineering physiology hot-shower practical-guide transformer tensorflow report tech-sharing product startup methodology teamwork conflict-resolution collaboration gtd tools deposit savings screen-time health-management china-us culture marriage partner coffee-beverage homemade-coffee taste performance fine-tuning blip-2 minigpt-4 llava alibaba vitamins fish-oil calcium-supplement vitamin-c iron calcium folic-acid chronic-disease supplements tcm western-medicine integrative-medicine evolution-tech tech-evolution lakehouse data-mesh serverless talent industry tech-selection evolution unimate technology hydraulic-drive ai-collaboration classification service-robot humanoid-robot logistics career skills trends service scara cobot motor reducer sensor plc mpc control trajectory-planning vision core-technology perception decision-making family data market challenges commercialization future-trends meta-learning lifestyle nmc-battery degradation body-fat-percentage body-shaping strength-training body-fat metabolism sympathetic-nerve parasympathetic-nerve autonomic-nervous-system hrv testing-platform api-integration automotive 3d tech model-y open-source imitation-learning vision-algorithm omin omni-modal omni research java-21 kotlin golang rust javascript node k8s gemini cep source sink dataset mergetree ik-analyzer dsl term-query filter aggregation inverted-index nrt grok filebeat tez data-mining cross-validation normalization evaluation-metrics ridge-regression lasso gradient-descent grafana visualization ods scd dimension-table dwd dws ads memory-management parallelism container esp32 home-assistant jenkins gitlab cicd devops-dev essay website astro frontend xml映射 sqlsession 动态sql mha 故障切换高并发分布式主键扩容绑定表 sql优化 hint 强制路由数据脱敏 tcc seata 柔性事务 sharding-proxy 分布式数据库分片策略 e-r分片配置文件 schema.xml 事务隔离级别 transactional 声明式事务编程式事务传播机制插件 nosql json 数据库操作分页 writeconcern 聚合 pipeline pagehelper 通用mapper b树 b+树应用场景选型 template repository 数据建模内嵌引用 wiredtiger inmemory 复制集 oplog 选举容器化 sharding 分片集群权限图论欧拉路径动态代理备份嵌入式数据库分布式文件系统云存储权限控制 concurrenthashmap lru oom 代理模式分布式缓存 spymemcached blockingqueue activemq 手写框架消息存储队列索引 erlang jdk 反向代理进程配置类加载 ssl jvm 心跳检测 io 监控 spi 路由降级表空间线程模型存储结构 undo redo binlog b+tree 聚簇索引排序锁 mvcc kubernetes offline-install pandas pip microservices voice

大数据-159 Apache Kylin Cube 实战：Hive 装载与预计算加速（含 Cuboid/实时 OL...

OLAP 示例：用 Python 生成维度与事实数据，经 Hive（wzk_kylin）装载后，在 Kylin 侧设计 Cube（维度/度量/Cuboid），并给出分组聚合 SQL 的验证结果。文章围绕 Kylin 的核心机制——预计算多维 Cuboid 与裁剪（Aggregation Group），解释如何在查询时快速命中已计算的结果，从而替代代价昂贵的实时聚合。并提示在实时 OLAP 场...

2024/10/9

big-datakylin

大数据-160 Apache Kylin Cube 实战：从建模到构建与查询（含踩坑与优化）

Apache Kylin（3.x/4.x）Cube 的搭建与优化：从 DataSource → Model → Cube 的完整流程，覆盖维度建模、度量设计、Cuboid 预计算、Aggregation Group 剪枝、增量构建与查询命中。结合 HBase 列式存储与 Snappy/LZO 压缩，演示在 Hadoop/Hive 环境下的 MapReduce 构建，并说明 Kylin 4.0...

2024/10/9

big-datakylin

大数据-67 从 MapReduce 到 Spark：大数据计算引擎三代演进全景解析

系统梳理大数据处理引擎从 MapReduce 到 Spark 再到 Flink 的演进脉络，解析 Spark 内存计算模型、统一生态与核心组件，帮助快速建立 Spark 全局认知。

2024/10/9

big-datasparkdistributed-systemdata-engineeringstream-processing

大数据-68 Spark 分布式环境搭建：从下载配置到多节点集群部署

手把手搭建 Apache Spark 分布式计算环境，涵盖下载解压、环境变量配置、slaves/spark-env.sh 核心配置文件调整，以及三节点集群分发启动的完整流程。

2024/10/9

big-datasparkdata-engineering

大数据-157 Apache Kylin 全面指南：MOLAP 架构、Hive/Kafka 实战与实时 OLAP 落地

Apache Kylin 的背景、演进与工程实践，聚焦 MOLAP 方案在海量数据分析中的落地路径。核心关键词：Apache Kylin、MOLAP、Cube、Cuboid、Hive、Kafka、HBase、Spark、Flink、JDBC、ODBC、REST、星型模型、雪花模型、实时 OLAP、增量构建。按时间线梳理 2014–2019 的版本能力（V1.5 Kafka、V1.6 近实时、...

2024/10/8

big-datakylin

大数据-158 Apache Kylin 3.1.1 在 Hadoop 2.9/Hive 2.3/HBase 1....

本文详细记录了在 Hadoop 2.9.2、Hive 2.3.9、HBase 1.3.1、Spark 2.4.5（without-hadoop，Scala 2.12）与三节点 ZooKeeper/YARN 环境下部署 Apache Kylin 3.1.1 的完整过程。核心要点包括：为 Kylin 补齐 core-site.xml/hdfs-site.xml/hbase-site.xml/hi...

2024/10/8

big-datakylin

大数据-65 Kafka 存储机制深度解析：日志分段、索引原理与消息保留策略

深入分析 Kafka 的日志存储架构，包括 LogSegment 分段设计、稀疏偏移量索引与时间戳索引的工作原理、消息查找流程，以及日志保留与清理策略配置。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/10/5

big-datakafkamessagingdata-engineering

大数据-66 Kafka 高性能底层原理：零拷贝、mmap 与顺序写入全解析

深入剖析 Kafka 实现高吞吐的三大 I/O 技术：sendfile 零拷贝、mmap 内存映射与页缓存顺序写入，揭秘每秒百万级消息处理背后的内核级优化。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/10/5

big-datakafkamessagingdistributed-system

大数据-63 Kafka 副本机制详解：高可用性、ISR 原理与 Leader 选举全解析

深入剖析 Kafka 副本机制的工作原理，包括 ISR 同步节点集合的维护逻辑、Leader 选举流程，以及 unclean 选举在一致性与可用性之间的权衡。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/10/2

big-datakafkamessagingdistributed-system

大数据-64 Kafka Exactly-Once 语义详解：幂等性、事务与精确一次消费

系统讲解 Kafka 如何通过幂等生产者和事务机制实现精确一次（Exactly-Once）语义，覆盖 PID/序列号原理、跨分区事务配置与端到端 EOS 实现方案。

2024/10/2

big-datakafkamessagingdistributed-system

大数据-155 Apache Druid 存储与查询架构实战：Segment/Chunk/Roll-up/Bitm...

Apache Druid 的数据存储与高性能查询路径：从 DataSource/Chunk/Segment 的分层，到列式存储、Roll-up 预聚合、Bitmap 索引、mmap 文件映射、查询多级缓存的协同；并结合 Overlord/MiddleManager/Peon 的索引服务与 Kafka/Hadoop 深度存储场景，给出工程化落地要点与排错思路。

2024/9/30

big-datadruid

大数据-156 Apache Druid+Kafka 实时分析实战：JSON 拉平摄取与 SQL 指标全流程

Scala Kafka Producer 将订单/点击数据写入 Kafka Topic（示例 topic: druid2），在 Druid 中通过 Kafka Indexing Service 进行连续摄取。由于原始记录为嵌套 JSON（orders 内含 products 数组），先进行 JSON 拉平预处理，随后在 Druid 设置正确的 timestampSpec，禁用 Rollup，...

2024/9/30

big-datadruidkafka

大数据-153 Apache Druid 实时接入 Kafka：从摄取到查询的完整实战

本文介绍Apache Druid实时接入Kafka的完整实战，以网络流量JSON为例，通过Druid控制台的Streaming/Kafka向导完成数据接入、解析时间列、设定维度与指标，并使用SQL验证结果。

2024/9/29

big-datadruidkafka

大数据-154 Apache Druid 架构与组件职责全解析版本架构：Coordinator/Overlord...

Apache Druid 在 0.13.0～当前（2025）的组件职责与部署要点：Coordinator 负责历史节点 Segment 的均衡/复制与生命周期管理；Overlord 调度摄入任务到 MiddleManager/Peon；Historical 提供大部分 Segment 查询；Broker 聚合并返回结果；Router 可选作统一网关；外部依赖包括 ZooKeeper、Meta...

2024/9/29

big-datadruid

大数据-151 Apache Druid 集群落地 [上篇] MySQL 元数据 + HDFS 深存与低配调优

Apache Druid 30.0.0 的可落地方案，覆盖 MySQL 元数据存储（mysql-connector-java 8.0.19）、HDFS 深度存储与 HDFS 上的 indexing-logs、以及 Kafka 实时摄取的混部实践。重点解释 Druid 角色划分（Coordinator/Overlord、Broker/Router、Historical、MiddleManage...

2024/9/28

big-datadruid

大数据-152 Apache Druid 集群模式 [下篇] 低内存集群实操：JVM/DirectMemory与启动脚本

三台节点上落地 Apache Druid 30.0.0 的低内存集群实践：给出 Broker/Historical/Router 的 JVM 参数与 runtime.properties 关键项，解释堆外内存与处理缓冲区的配比关系。

2024/9/28

big-datadruid

大数据-61 Kafka 主题、分区与消费者机制详解：从基础概念到重平衡优化

深入解析 Kafka 的 Topic、Partition、Consumer Group 核心机制，涵盖自定义反序列化、偏移量管理与重平衡优化配置，帮助构建高吞吐消息消费系统。

2024/9/28

big-datakafkamessagingdistributed-system

大数据-62 Kafka Topic 管理与运维实战：命令详解 + 副本分配策略 + Java API

全面介绍 Kafka Topic 的运维管理方法，包括 kafka-topics.sh 命令操作、副本均衡分配算法原理，以及 KafkaAdminClient Java API 的核心用法。

2024/9/28

big-datakafkamessagingjavadata-engineering

大数据-149 Apache Druid 实时 OLAP 架构与选型要点

Apache Druid 的实时 OLAP 实战：适合以时间为主键的事件明细、亚秒级聚合与高并发自助分析。Druid 采用列式存储与时间分区，核心组件包括 Broker、Historical、MiddleManager、Coordinator、Overlord、Router，支持流式与批量摄取（Kafka/HDFS 等），并提供 SQL/JSON 查询接口，擅长快速聚合+交互式探索。当前最新...

2024/9/27

big-datadruidolap

大数据-150 Apache Druid 单机部署实战：架构速览、启动清单与故障速修

Apache Druid 30.0.0，面向单机快速验证与工程落地，系统梳理 Druid 架构（Coordinator、Historical、Broker、Ingestion、Deep Storage），给出下载解压、环境变量、single-server 各档位（nano-quickstart/micro/small/medium/large/xlarge）启动命令与目录路径。覆盖控制台 8...

2024/9/27

big-datadruiddeployment

博客

大数据-159 Apache Kylin Cube 实战：Hive 装载与预计算加速（含 Cuboid/实时 OL...

大数据-160 Apache Kylin Cube 实战：从建模到构建与查询（含踩坑与优化）

大数据-67 从 MapReduce 到 Spark：大数据计算引擎三代演进全景解析

大数据-68 Spark 分布式环境搭建：从下载配置到多节点集群部署

大数据-157 Apache Kylin 全面指南：MOLAP 架构、Hive/Kafka 实战与实时 OLAP 落地

大数据-158 Apache Kylin 3.1.1 在 Hadoop 2.9/Hive 2.3/HBase 1....

大数据-65 Kafka 存储机制深度解析：日志分段、索引原理与消息保留策略

大数据-66 Kafka 高性能底层原理：零拷贝、mmap 与顺序写入全解析

大数据-63 Kafka 副本机制详解：高可用性、ISR 原理与 Leader 选举全解析

大数据-64 Kafka Exactly-Once 语义详解：幂等性、事务与精确一次消费

大数据-155 Apache Druid 存储与查询架构实战：Segment/Chunk/Roll-up/Bitm...

大数据-156 Apache Druid+Kafka 实时分析实战：JSON 拉平摄取与 SQL 指标全流程

大数据-153 Apache Druid 实时接入 Kafka：从摄取到查询的完整实战

大数据-154 Apache Druid 架构与组件职责全解析 版本架构：Coordinator/Overlord...

大数据-151 Apache Druid 集群落地 [上篇] MySQL 元数据 + HDFS 深存与低配调优

大数据-152 Apache Druid 集群模式 [下篇] 低内存集群实操：JVM/DirectMemory与启动脚本

大数据-61 Kafka 主题、分区与消费者机制详解：从基础概念到重平衡优化

大数据-62 Kafka Topic 管理与运维实战：命令详解 + 副本分配策略 + Java API

大数据-149 Apache Druid 实时 OLAP 架构与选型要点

大数据-150 Apache Druid 单机部署实战：架构速览、启动清单与故障速修

大数据-154 Apache Druid 架构与组件职责全解析版本架构：Coordinator/Overlord...