博客

记录技术探索与思考 · 共 655 篇

全部 big-data java ai artificial-intelligence programmer-life machine-learning mysql data-engineering 后端 flink distributed architecture python data-warehouse robotics spark hive kafka scala distributed-system llm 数据库 hdfs embodied-ai deep-learning spring 消息队列 langchain system-architecture mybatis performance-optimization elasticsearch mongodb health redis spring-boot rabbitmq mq hadoop elk flume stream-processing 事务 hbase messaging rpc 教程 sklearn caching large-language-model 缓存 dubbo java-rabbitmq clickhouse kylin mllib neo4j sql realtime-warehouse canal 索引微服务 tomcat programmer multimodal tesla zookeeper druid datax orm shardingsphere ioc nutrition robot-arm indie-dev nginx fastdfs rocketmq time-management applications career-growth etl guava java-rocketmq 优化 learning quantization middleware docker kudu logstash decision-tree sqoop airflow 分库分表分片 mycat 存储引擎一致性 fat-loss gpt product-manager coffee business-analysis automation algorithm career-and-growth computer-vision autonomous-driving fsd qwen mapreduce crud backend 分布式事务并发事务失效图数据库 memcached netty innodb salary career-development cold-shower running productivity luckin medical industrial lfp lfp-battery battery ev fitness career-personal-growth ocr deepseek deepseek-ocr programming-language cloud-native yarn datastream jdbc olap knn linear-regression numpy monitoring griffin 设计模式数据映射读写分离主从复制高可用安全源码分析 cql evcache servlet aop 负载均衡手写 nio mindfulness meditation exercise muscle-gain reinforcement-learning agent conflict evaluation money-management consumption social-media dating memory price-war cotti ptq qat qlora qwen2.5-vl multi-dimensional history industrial-robot agriculture hardware simulation sector ros deployment slam visual-inspection linux window raft kibana regularization logistic-regression prometheus exporter zipper-table atlas state-management devops server maven 注解开发 sharding-jdbc cap 2pc 3pc xa saga acid bson explain 慢查询副本集部署认证集群 oss 阿里云源码 netflix 异步 jms paxos rmi engineering physiology hot-shower practical-guide transformer tensorflow report tech-sharing product startup methodology teamwork conflict-resolution collaboration gtd tools deposit savings screen-time health-management china-us culture marriage partner coffee-beverage homemade-coffee taste performance fine-tuning blip-2 minigpt-4 llava alibaba vitamins fish-oil calcium-supplement vitamin-c iron calcium folic-acid chronic-disease supplements tcm western-medicine integrative-medicine evolution-tech tech-evolution lakehouse data-mesh serverless talent industry tech-selection evolution unimate technology hydraulic-drive ai-collaboration classification service-robot humanoid-robot logistics career skills trends service scara cobot motor reducer sensor plc mpc control trajectory-planning vision core-technology perception decision-making family data market challenges commercialization future-trends meta-learning lifestyle nmc-battery degradation body-fat-percentage body-shaping strength-training body-fat metabolism sympathetic-nerve parasympathetic-nerve autonomic-nervous-system hrv testing-platform api-integration automotive 3d tech model-y open-source imitation-learning vision-algorithm omin omni-modal omni research java-21 kotlin golang rust javascript node k8s gemini cep source sink dataset mergetree ik-analyzer dsl term-query filter aggregation inverted-index nrt grok filebeat tez data-mining cross-validation normalization evaluation-metrics ridge-regression lasso gradient-descent grafana visualization ods scd dimension-table dwd dws ads memory-management parallelism container esp32 home-assistant jenkins gitlab cicd devops-dev essay website astro frontend xml映射 sqlsession 动态sql mha 故障切换高并发分布式主键扩容绑定表 sql优化 hint 强制路由数据脱敏 tcc seata 柔性事务 sharding-proxy 分布式数据库分片策略 e-r分片配置文件 schema.xml 事务隔离级别 transactional 声明式事务编程式事务传播机制插件 nosql json 数据库操作分页 writeconcern 聚合 pipeline pagehelper 通用mapper b树 b+树应用场景选型 template repository 数据建模内嵌引用 wiredtiger inmemory 复制集 oplog 选举容器化 sharding 分片集群权限图论欧拉路径动态代理备份嵌入式数据库分布式文件系统云存储权限控制 concurrenthashmap lru oom 代理模式分布式缓存 spymemcached blockingqueue activemq 手写框架消息存储队列索引 erlang jdk 反向代理进程配置类加载 ssl jvm 心跳检测 io 监控 spi 路由降级表空间线程模型存储结构 undo redo binlog b+tree 聚簇索引排序锁 mvcc kubernetes offline-install pandas pip microservices voice

大数据-274 Spark MLlib - 基础介绍机器学习算法剪枝后剪枝 ID3 C4.5 CART

本文系统介绍了决策树的预剪枝与后剪枝原理，对比了ID3、C4.5和CART三种主流算法的核心差异，包括分裂标准、属性支持类型和剪枝方法。重点阐述了信息增益、信息增益率与基尼系数的计算原理，详细讲解了从树生成到剪枝的完整流程，并通过Spark MLlib中的Scala代码实例演示了决策树分类器的实现过程。

2025/5/29

big-datasparkmachine-learningmllibscala

大数据-273 Spark MLlib - 基础介绍机器学习算法决策树分类原则分类原理基尼系数熵

本文介绍了决策树的基本概念、分类原则和分类原理。决策树是一种非线性有监督分类模型，通过树形结构进行属性判断和分类。分类时应选择能将数据分类更纯粹的节点作为根节点，减少树高和训练次数。分类原理涉及熵、条件熵、信息增益等概念：熵衡量信息混乱程度，信息增益反映分类前后熵的变化，基尼系数也可表示样本混乱程度。

2025/5/28

big-datasparkmachine-learningmllibscala

大数据-272 Spark MLlib - 基础介绍机器学习算法逻辑回归

本文介绍了逻辑回归的基本原理、应用场景和在Spark MLlib中的实现。逻辑回归是一种高效二分类算法，广泛应用于广告点击率、垃圾邮件识别等领域。文章详细讲解了逻辑回归的输入函数、Sigmoid激活函数和损失计算方法，并通过糖尿病预测案例演示了如何使用Spark MLlib的LogisticRegressionWithSGD模块进行模型训练与评估。

2025/5/27

big-datasparkmachine-learningmllibscala

大数据-271 Spark MLlib - 基础介绍机器学习算法线性回归场景定义损失优化

线性回归（Linear Regression）是利用回归方程（函数）对一个或多个自变量和因变量之间关系进行建模的一种分析方式。特点：只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归。

2025/4/11

big-datasparkmachine-learningmllibscala

大数据-268 实时数仓 - ODS层将 Kafka 中的维度表写入 DIM

在 Kafka 中写入维度表（DIM）通常涉及将实时或批处理数据从 Kafka 主题读取，并根据数据流中的信息更新维度表。维度表存储与业务数据相关的维度信息，如客户、产品、地理位置等，用于支持 OLAP 查询。

2025/1/3

big-datarealtime-warehouseflinkkafkacanalhbasescala

大数据-269 实时数仓 - DIM DW ADS 层处理 Scala实现将数据写出HBase等

DW（Data WareHouse 数据仓库层），包含 DWD、DWS、DIM 层数据加工而成，主要完成数据架构与整合，建立一致性的维度，构建可复用的面向分析和统计的明细事实表，以及汇总公共粒度的指标。基于 DW 数据，整合汇总成主题域的服务数据，用于提供后续的业务查询等。在分析交易过程时，可以通过卖家、买家、商品和时间等维度描述交易发生的环境，所以维度的作用一般是查询约束、分类汇总以及排序...

2025/1/3

big-datarealtime-warehouseflinkkafkacanalhbasescala

Spark MLlib 逻辑回归：Sigmoid、损失函数与糖尿病预测案例

逻辑回归是机器学习中的分类模型——一种高效的二分类算法，广泛应用于广告点击率预测、垃圾邮件识别等场景。本文介绍 Sigmoid 函数、损失函数和梯度下降优化。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2025/1/3

大数据机器学习SparkMLlibScala

大数据-266 实时数仓 - Canal 对接 Kafka 客户端测试

本文介绍了阿里巴巴开源的Canal工具，它通过解析MySQL的binlog实现数据库变更的数据捕获(CDC)。文章展示了如何将Canal与Kafka集成，实现数据库变更到消息队列的实时推送，包含INSERT、UPDATE、DELETE操作的JSON格式示例。

2025/1/2

big-datarealtime-warehouseflinkkafkacanalhbasescala

大数据-267 实时数仓 - ODS Lambda架构 Kappa架构核心思想

在互联网企业中，常见的 ODS 数据有业务日志数据（Log）和业务 DB 数据两类，对于业务 DB 数据来说，从 MySQL 等关系型数据库的业务数据进行采集，然后导入到 Hive 中，是进行数据仓库生产的重要环节。它的作用是存储大量的结构化数据，并能进行频繁和可重复的分析。为了彻底解决这些问题，我们逐步实时 binlog 采集进行实时处理，binlog 是 MySQL的二进制日志，记录了 ...

2025/1/2

big-datarealtime-warehouseflinkkafkacanalhbasescala

Spark MLlib 线性回归：场景、损失函数与梯度下降

线性回归是一种利用回归方程对自变量和因变量之间关系进行建模的分析方法。本文介绍线性回归的应用场景、损失函数和梯度下降优化算法。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2025/1/2

大数据机器学习SparkMLlibScala

大数据-265 实时数仓 - Canal 部署安装启动服务常见问题解决

Canal 是阿里巴巴开源的数据同步工具，用于 MySQL 数据库的增量日志解析和同步。它模拟 MySQL 从库协议，获取主库的 binlog 日志，从而实现实时数据捕获和传输，常用于数据迁移、缓存更新和搜索引擎同步等场景。Canal 集群模式通常结合 ZooKeeper 实现分布式协调，保证高可用性和负载均衡。

2024/12/31

big-datarealtime-warehouseflinkkafkacanalhbasescala

大数据-263 实时数仓 - Canal 工作原理工作流程 MySQL Binlog基本介绍

Canal 是一款用于 MySQL 数据库 binlog 增量订阅和消费的开源工具。它主要用于解决数据同步和分布式事务问题，支持将数据库变更同步到其他系统中，比如消息队列、大数据平台等。Master 主库将改变记录写进二进制 binary log 中Slave 从库向 MySQL Master 发送 DUMP 协议，将 Master 主库的 binary log events 拷贝到它的中继...

2024/12/30

big-datarealtime-warehouseflinkkafkacanalhbasescala

大数据-264 实时数仓 - Canal MySQL的binlog研究存储目录变动信息配置MySQL

MySQL 的二进制日志（Binary Log，简称 binlog）是 MySQL 数据库中的一种日志文件类型，它记录了对数据库执行的所有更改操作（不包括 SELECT 和 SHOW 等查询操作）。它主要用于数据恢复、复制和审计等场景。

2024/12/30

big-datarealtime-warehouseflinkkafkacanalhbasescala

大数据-262 实时数仓 - Canal 同步数据介绍背景原理与优势拉链表实时统计

阿里巴巴 B2B 公司，由于业务的特性，卖家主要集中在国内，买家主要集中在国外，所以衍生出了杭州和美国异地机房的需求，从 2010 年开始，阿里系公司开始逐步的尝试基于数据库的日志解析，获取增量变更进行同步，由此衍生出了增量订阅、消费的业务。Canal是用 Java 开发的基于数据库增量日志解析，提供增量数据订阅、消费的中间件。目前，Canal主要支持了 MySQL 的 Binlog 解析，...

2024/12/29

big-datarealtime-warehouseflinkkafkacanalhbasescala

深入浅出 Spring - AOP切面增强核心概念相关术语 Proxy配置

深入浅出 Spring - AOP切面增强核心概念相关术语 Proxy配置...本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/12/29

JavaSpring后端Spring BootAOP

大数据-261 实时数仓 - 业务数据库表结构交易订单、订单产品、产品分类、商家店铺、地域组织表

实时数仓是一种数据仓库系统，区别于传统批处理数仓，它强调低延迟、高吞吐和高可用性。实时数仓能够处理流式数据或近实时的数据流，使企业能够及时监控关键指标并做出决策。

2024/12/28

big-datarealtime-warehouseflinkkafkacanalhbasescala

深入浅出 Spring - IoC容器体系循环依赖原型Bean 原型作用域 Lazy ObjectFactory

深入浅出 Spring - IoC容器体系循环依赖原型Bean 原型作用域 Lazy ObjectFactory...本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/12/28

JavaSpring后端Spring BootIoC

大数据-260 实时数仓 - 项目背景与需求实时数仓架构需求分析技术选型逻辑架构

数据实时处理能力成为企业提升竞争力的一大因素，最初阶段主要采用来一个需求，编写一个实时任务的方式来处理实时数据，随着需求的增多，计算任务也相对增多，并且不同任务的开发人员不同，导致开发风格差异化，该阶段的实时数据处理缺乏统一的规划，代码风格差异化严重，在维护成本和开发效率上有很大障碍。CDH：最成型的发型版本，拥有最多的部署案例，提供强大的部署、管理和监控工具，国内使用最多的版本，拥有强大的...

2024/12/27

big-datadata-warehouseflink