博客

记录技术探索与思考 · 共 655 篇

全部 big-data java ai artificial-intelligence programmer-life machine-learning mysql data-engineering 后端 flink distributed architecture python data-warehouse robotics spark hive kafka scala distributed-system llm 数据库 hdfs embodied-ai deep-learning spring 消息队列 langchain system-architecture mybatis performance-optimization elasticsearch mongodb health redis spring-boot rabbitmq mq hadoop elk flume stream-processing 事务 hbase messaging rpc 教程 sklearn caching large-language-model 缓存 dubbo java-rabbitmq clickhouse kylin mllib neo4j sql realtime-warehouse canal 索引微服务 tomcat programmer multimodal tesla zookeeper druid datax orm shardingsphere ioc nutrition robot-arm indie-dev nginx fastdfs rocketmq time-management applications career-growth etl guava java-rocketmq 优化 learning quantization middleware docker kudu logstash decision-tree sqoop airflow 分库分表分片 mycat 存储引擎一致性 fat-loss gpt product-manager coffee business-analysis automation algorithm career-and-growth computer-vision autonomous-driving fsd qwen mapreduce crud backend 分布式事务并发事务失效图数据库 memcached netty innodb salary career-development cold-shower running productivity luckin medical industrial lfp lfp-battery battery ev fitness career-personal-growth ocr deepseek deepseek-ocr programming-language cloud-native yarn datastream jdbc olap knn linear-regression numpy monitoring griffin 设计模式数据映射读写分离主从复制高可用安全源码分析 cql evcache servlet aop 负载均衡手写 nio mindfulness meditation exercise muscle-gain reinforcement-learning agent conflict evaluation money-management consumption social-media dating memory price-war cotti ptq qat qlora qwen2.5-vl multi-dimensional history industrial-robot agriculture hardware simulation sector ros deployment slam visual-inspection linux window raft kibana regularization logistic-regression prometheus exporter zipper-table atlas state-management devops server maven 注解开发 sharding-jdbc cap 2pc 3pc xa saga acid bson explain 慢查询副本集部署认证集群 oss 阿里云源码 netflix 异步 jms paxos rmi engineering physiology hot-shower practical-guide transformer tensorflow report tech-sharing product startup methodology teamwork conflict-resolution collaboration gtd tools deposit savings screen-time health-management china-us culture marriage partner coffee-beverage homemade-coffee taste performance fine-tuning blip-2 minigpt-4 llava alibaba vitamins fish-oil calcium-supplement vitamin-c iron calcium folic-acid chronic-disease supplements tcm western-medicine integrative-medicine evolution-tech tech-evolution lakehouse data-mesh serverless talent industry tech-selection evolution unimate technology hydraulic-drive ai-collaboration classification service-robot humanoid-robot logistics career skills trends service scara cobot motor reducer sensor plc mpc control trajectory-planning vision core-technology perception decision-making family data market challenges commercialization future-trends meta-learning lifestyle nmc-battery degradation body-fat-percentage body-shaping strength-training body-fat metabolism sympathetic-nerve parasympathetic-nerve autonomic-nervous-system hrv testing-platform api-integration automotive 3d tech model-y open-source imitation-learning vision-algorithm omin omni-modal omni research java-21 kotlin golang rust javascript node k8s gemini cep source sink dataset mergetree ik-analyzer dsl term-query filter aggregation inverted-index nrt grok filebeat tez data-mining cross-validation normalization evaluation-metrics ridge-regression lasso gradient-descent grafana visualization ods scd dimension-table dwd dws ads memory-management parallelism container esp32 home-assistant jenkins gitlab cicd devops-dev essay website astro frontend xml映射 sqlsession 动态sql mha 故障切换高并发分布式主键扩容绑定表 sql优化 hint 强制路由数据脱敏 tcc seata 柔性事务 sharding-proxy 分布式数据库分片策略 e-r分片配置文件 schema.xml 事务隔离级别 transactional 声明式事务编程式事务传播机制插件 nosql json 数据库操作分页 writeconcern 聚合 pipeline pagehelper 通用mapper b树 b+树应用场景选型 template repository 数据建模内嵌引用 wiredtiger inmemory 复制集 oplog 选举容器化 sharding 分片集群权限图论欧拉路径动态代理备份嵌入式数据库分布式文件系统云存储权限控制 concurrenthashmap lru oom 代理模式分布式缓存 spymemcached blockingqueue activemq 手写框架消息存储队列索引 erlang jdk 反向代理进程配置类加载 ssl jvm 心跳检测 io 监控 spi 路由降级表空间线程模型存储结构 undo redo binlog b+tree 聚簇索引排序锁 mvcc kubernetes offline-install pandas pip microservices voice

大数据-103 Spark Streaming 消费 Kafka：Offset 获取、存储与恢复详解

Spark Streaming 集成 Kafka 时，Offset 管理是保证数据处理连续性与一致性的关键环节。Offset 用于标记消息在分区中的位置，应用可通过它来控制消费进度。若在程序异常退出前未持久化保存 Offset，则会导致数据丢失或重复消费。常见管理方式包括：使用 Checkpoint 保存元数据和 Offset，支持故障恢复但存在版本兼容问题；依赖 Kafka 内置的提交机制...

2024/8/27

big-datasparkkafka

大数据-104 Spark Streaming 与 Kafka 集成：Offset 管理机制详解与最佳实践 Sca...

Offset用于标记Kafka分区内消息的位置，正确管理能够实现"至少一次"甚至"仅一次"的数据处理语义。通过持久化Offset，应用在故障恢复时可从上次处理的位置继续消费，避免消息丢失或重复。

2024/8/27

big-datasparkkafkaredis

大数据-101 Spark Streaming 有状态转换详解：窗口操作与状态跟踪实战附多案例代码

窗口操作通过设置窗口长度（windowDuration）和滑动间隔（slideDuration），在比 batchDuration 更长的时间范围内整合多个批次的数据，实现动态的流式计算。典型案例展示了如何通过 reduceByWindow 对窗口内数据进行拼接与求和，以及如何利用 reduceByKeyAndWindow 实现热点搜索词的实时统计，强调了窗口参数与批次间隔的关系。另一方面，...

2024/8/26

big-dataspark

大数据-102 Spark Streaming 与 Kafka 集成全解析：Receiver 与 Direct 两...

本文介绍了 Spark Streaming 与 Kafka 的两种集成方式：Receiver Approach 和 Direct Approach。Receiver 方式通过 Executor 上的 Receiver 持续接收数据，依赖 BlockManager 管理数据块，可通过 WAL 增强可靠性；Direct 方式不依赖 Receiver，直接生成与 Kafka 分区对应的 Kafka...

2024/8/26

big-datasparkkafka

大数据-41 Redis 高级数据类型：Bitmap、Geo 与 Stream

深入讲解 Redis 的 Bitmap 位图、Geo 地理位置（GeoHash、Z-order 曲线、Base32 编码）与 Stream 消息流三种高级数据类型，含常用命令与实战示例。

2024/8/24

big-datarediscachingdata-engineering

大数据-42 Redis Pub/Sub 发布订阅：机制、弱事务与风险

详解 Redis 发布订阅模式的工作机制、三大弱事务缺陷（无持久化、无确认、无重试），以及在生产环境中的替代方案选择。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/8/24

big-dataredisdistributed-systemcaching

大数据-39 Redis 源码编译安装与启动配置

在 Ubuntu 上从源码编译安装 Redis 6.2.9，配置 redis.conf 守护进程模式，启动 redis-server 并通过 redis-cli 验证连接。

2024/8/21

big-dataredisdata-engineering

大数据-40 Redis 五大数据类型命令详解与实战

全面讲解 Redis 的 String、List、Set、Sorted Set、Hash 五大数据类型的常用命令、底层特性与典型使用场景，附完整命令示例。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/8/21

big-datarediscachingdata-engineering

大数据-37 HBase Java API 增删改查完整代码

使用 HBase Java Client API 实现建表、插入、删除、Get 查询、全表扫描与范围扫描，附完整 Maven 依赖和可运行代码示例。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/8/17

big-datahbasejavadata-engineering

大数据-38 Redis 分布式缓存介绍与缓存读写模式详解

介绍 Redis 的核心特性与五大数据类型，深入讲解旁路缓存、穿透模式、Write Behind 三种缓存读写模式的原理与适用场景。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/8/17

big-datarediscachingdistributed-system

大数据-35 HBase 集群模式：3 节点集群配置与启动

基于上一篇单节点配置，将 HBase 分发到 3 个节点组成生产集群，介绍配置同步、集群启动、Web UI 验证及 HBase Shell 基本操作。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/8/14

big-datahbasedistributed-systemdata-engineering

大数据-36 HBase 增删改查与列族设计详解

深入讲解 HBase 列族设计原则、Shell 操作实战，涵盖建表、插入、查询、更新、删除完整流程，附生产级列族配置示例。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/8/14

big-datahbasedata-engineering

大数据-33 HBase 整体架构：HMaster、HRegionServer 与数据模型

全面解析 HBase 分布式数据库的整体架构，包括 ZooKeeper 协调、HMaster 管理节点、HRegionServer 数据节点、Region 存储单元及四维数据模型，适合大数据架构选型参考。

2024/8/10

big-datahbasedistributed-systemdata-engineering

大数据-34 HBase 单节点配置：hbase-env 与 hbase-site.xml 详解

手把手配置 HBase 单节点环境，详解 hbase-env.sh、hbase-site.xml 关键参数，完成与 Hadoop HDFS 和 ZooKeeper 集群的对接。

2024/8/10

big-datahbasedata-engineering

大数据-31 ZooKeeper Leader 选举与 ZAB 协议原理

深入解析 ZooKeeper 的 Leader 选举机制与 ZAB 原子广播协议，涵盖初始选举流程、消息广播三阶段、故障恢复策略及生产部署建议。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/8/7

big-datazookeeperdistributed-system

大数据-32 ZooKeeper 分布式锁 Java 实现详解

基于 ZooKeeper 临时顺序节点实现分布式锁，附完整 Java 代码，涵盖锁竞争、前驱节点监听、CountDownLatch 同步和递归重试的完整流程。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/8/7

big-datazookeeperjavadistributed-system

大数据-29 ZooKeeper Watcher 原理与命令行实践指南

从客户端、WatcherManager 到 ZooKeeper 服务端，完整解析 Watcher 的注册-触发-通知流程，并通过 zkCli 命令行实操演示节点的增删查改与监听。

2024/8/3

big-datazookeeperdistributed-systemjava

大数据-30 ZooKeeper Java API 实战：节点增删改查与监听

使用 ZkClient 库通过 Java 代码操作 ZooKeeper，实现 Session 建立、持久节点增删、子节点变更监听与数据变更监听的完整实战示例。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/8/3

big-datazookeeperjavadistributed-system

大数据-27 ZooKeeper 集群配置详解与启动验证

深入解析 zoo.cfg 核心参数含义，讲解 myid 文件配置规范，演示 3 节点集群启动流程与 Leader 选举结果验证。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/7/31

big-datazookeeperdistributed-system

大数据-28 ZooKeeper ZNode 数据结构与 Watcher 监听机制详解

深入解析 ZooKeeper 的 ZNode 四种节点类型、ZXID 事务 ID 结构，以及 Watcher 一次性触发的监听机制原理与实践。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/7/31

big-datazookeeperdistributed-system

博客

大数据-103 Spark Streaming 消费 Kafka：Offset 获取、存储与恢复详解

大数据-104 Spark Streaming 与 Kafka 集成：Offset 管理机制详解与最佳实践 Sca...

大数据-101 Spark Streaming 有状态转换详解：窗口操作与状态跟踪实战 附多案例代码

大数据-102 Spark Streaming 与 Kafka 集成全解析：Receiver 与 Direct 两...

大数据-41 Redis 高级数据类型：Bitmap、Geo 与 Stream

大数据-42 Redis Pub/Sub 发布订阅：机制、弱事务与风险

大数据-39 Redis 源码编译安装与启动配置

大数据-40 Redis 五大数据类型命令详解与实战

大数据-37 HBase Java API 增删改查完整代码

大数据-38 Redis 分布式缓存介绍与缓存读写模式详解

大数据-35 HBase 集群模式：3 节点集群配置与启动

大数据-36 HBase 增删改查与列族设计详解

大数据-33 HBase 整体架构：HMaster、HRegionServer 与数据模型

大数据-34 HBase 单节点配置：hbase-env 与 hbase-site.xml 详解

大数据-31 ZooKeeper Leader 选举与 ZAB 协议原理

大数据-32 ZooKeeper 分布式锁 Java 实现详解

大数据-29 ZooKeeper Watcher 原理与命令行实践指南

大数据-30 ZooKeeper Java API 实战：节点增删改查与监听

大数据-27 ZooKeeper 集群配置详解与启动验证

大数据-28 ZooKeeper ZNode 数据结构与 Watcher 监听机制详解

大数据-101 Spark Streaming 有状态转换详解：窗口操作与状态跟踪实战附多案例代码