博客

记录技术探索与思考 · 共 655 篇

全部 big-data java ai artificial-intelligence programmer-life machine-learning mysql data-engineering 后端 flink distributed architecture python data-warehouse robotics spark hive kafka scala distributed-system llm 数据库 hdfs embodied-ai deep-learning spring 消息队列 langchain system-architecture mybatis performance-optimization elasticsearch mongodb health redis spring-boot rabbitmq mq hadoop elk flume stream-processing 事务 hbase messaging rpc 教程 sklearn caching large-language-model 缓存 dubbo java-rabbitmq clickhouse kylin mllib neo4j sql realtime-warehouse canal 索引微服务 tomcat programmer multimodal tesla zookeeper druid datax orm shardingsphere ioc nutrition robot-arm indie-dev nginx fastdfs rocketmq time-management applications career-growth etl guava java-rocketmq 优化 learning quantization middleware docker kudu logstash decision-tree sqoop airflow 分库分表分片 mycat 存储引擎一致性 fat-loss gpt product-manager coffee business-analysis automation algorithm career-and-growth computer-vision autonomous-driving fsd qwen mapreduce crud backend 分布式事务并发事务失效图数据库 memcached netty innodb salary career-development cold-shower running productivity luckin medical industrial lfp lfp-battery battery ev fitness career-personal-growth ocr deepseek deepseek-ocr programming-language cloud-native yarn datastream jdbc olap knn linear-regression numpy monitoring griffin 设计模式数据映射读写分离主从复制高可用安全源码分析 cql evcache servlet aop 负载均衡手写 nio mindfulness meditation exercise muscle-gain reinforcement-learning agent conflict evaluation money-management consumption social-media dating memory price-war cotti ptq qat qlora qwen2.5-vl multi-dimensional history industrial-robot agriculture hardware simulation sector ros deployment slam visual-inspection linux window raft kibana regularization logistic-regression prometheus exporter zipper-table atlas state-management devops server maven 注解开发 sharding-jdbc cap 2pc 3pc xa saga acid bson explain 慢查询副本集部署认证集群 oss 阿里云源码 netflix 异步 jms paxos rmi engineering physiology hot-shower practical-guide transformer tensorflow report tech-sharing product startup methodology teamwork conflict-resolution collaboration gtd tools deposit savings screen-time health-management china-us culture marriage partner coffee-beverage homemade-coffee taste performance fine-tuning blip-2 minigpt-4 llava alibaba vitamins fish-oil calcium-supplement vitamin-c iron calcium folic-acid chronic-disease supplements tcm western-medicine integrative-medicine evolution-tech tech-evolution lakehouse data-mesh serverless talent industry tech-selection evolution unimate technology hydraulic-drive ai-collaboration classification service-robot humanoid-robot logistics career skills trends service scara cobot motor reducer sensor plc mpc control trajectory-planning vision core-technology perception decision-making family data market challenges commercialization future-trends meta-learning lifestyle nmc-battery degradation body-fat-percentage body-shaping strength-training body-fat metabolism sympathetic-nerve parasympathetic-nerve autonomic-nervous-system hrv testing-platform api-integration automotive 3d tech model-y open-source imitation-learning vision-algorithm omin omni-modal omni research java-21 kotlin golang rust javascript node k8s gemini cep source sink dataset mergetree ik-analyzer dsl term-query filter aggregation inverted-index nrt grok filebeat tez data-mining cross-validation normalization evaluation-metrics ridge-regression lasso gradient-descent grafana visualization ods scd dimension-table dwd dws ads memory-management parallelism container esp32 home-assistant jenkins gitlab cicd devops-dev essay website astro frontend xml映射 sqlsession 动态sql mha 故障切换高并发分布式主键扩容绑定表 sql优化 hint 强制路由数据脱敏 tcc seata 柔性事务 sharding-proxy 分布式数据库分片策略 e-r分片配置文件 schema.xml 事务隔离级别 transactional 声明式事务编程式事务传播机制插件 nosql json 数据库操作分页 writeconcern 聚合 pipeline pagehelper 通用mapper b树 b+树应用场景选型 template repository 数据建模内嵌引用 wiredtiger inmemory 复制集 oplog 选举容器化 sharding 分片集群权限图论欧拉路径动态代理备份嵌入式数据库分布式文件系统云存储权限控制 concurrenthashmap lru oom 代理模式分布式缓存 spymemcached blockingqueue activemq 手写框架消息存储队列索引 erlang jdk 反向代理进程配置类加载 ssl jvm 心跳检测 io 监控 spi 路由降级表空间线程模型存储结构 undo redo binlog b+tree 聚簇索引排序锁 mvcc kubernetes offline-install pandas pip microservices voice

大数据-207 如何应对多重共线性：使用线性回归中的最小二乘法时常见问题与解决方案

scikit-learn 进行线性回归时，如何应对最小二乘法中的多重共线性问题。多重共线性可能导致回归模型的不稳定性，表现为参数估计值的不稳定、方差增大以及解的不唯一。文章详细介绍了多重共线性的成因及其影响，并提出了几种改进的回归方法，如岭回归、Lasso回归等。

2024/11/5

big-datamachine-learninglinear-regressionsklearnpython

大数据-208 岭回归与Lasso回归：区别、应用与选择指南

岭回归（Ridge Regression）和Lasso回归（Lasso）是两种常用的线性回归正则化方法，用于解决机器学习中的过拟合和多重共线性问题。岭回归通过L2正则化项压缩回归系数，但不将其归零，适合特征间高度相关的场景；Lasso回归则采用L1正则化，有助于特征选择，将不重要的特征系数压缩为零，特别适用于高维数据。选择两者时需依据应用场景：岭回归适用于避免过拟合，Lasso则有助于模型解...

2024/11/5

big-datamachine-learningridge-regressionlassoregularization

大数据-205 线性回归的机器学习视角：矩阵表示、SSE损失与最小二乘

线性回归（Linear Regression）的核心链路：用矩阵形式统一表示预测函数 y=Xw，将参数向量 w 作为唯一未知量；以损失函数刻画拟合误差，重点解释 SSE（残差平方和/误差平方和）作为回归任务的典型优化目标；通过最小二乘法（Least Squares）把"让 SSE 最小"转化为对参数求导并令一阶导为 0，从一元线性回归的直观拟合过渡到多元线性回归的矩阵推导与求解框架（正规...

2024/11/4

big-datamachine-learninglinear-regressionpythonnumpy

大数据-206 用 NumPy 矩阵乘法手写多元线性回归：正规方程、SSE/MSE/RMSE 与 R²

pandas DataFrame 与 NumPy 矩阵乘法手写多元线性回归（线性回归实现）。核心思路是将特征矩阵 X（包含一列全 1 作为截距）与标签 y 组成正规方程，通过 w=(X^TX)^{-1}X^Ty 直接求解参数权重。实现中重点检查 X^TX 是否满秩：若行列式为 0 则矩阵奇异，无法求逆，需要改用伪逆或最小二乘。评估部分给出残差平方和 SSE、均方误差 MSE、均方根误差 RM...

2024/11/4

big-datamachine-learninglinear-regressionpythonnumpy

大数据-203 scikit-learn 决策树剪枝参数：max_depth/min_samples_leaf 到...

scikit-learn 决策树剪枝（预剪枝）在工程落地中的常用参数：max_depth、min_samples_leaf、min_samples_split、max_features、min_impurity_decrease 与 class_weight，解释它们如何影响 DecisionTreeClassifier 的过拟合、树规模与泛化能力，并给出用学习曲线（score vs 超参数...

2024/11/2

big-datamachine-learningsklearndecision-treepython

大数据-204 混淆矩阵到ROC：不平衡二分类评估指标全梳理 sklearn

混淆矩阵（TP、FP、FN、TN）建立统一口径，解释 Accuracy、Precision（查准率）、Recall（查全率/敏感度）、F1 Measure 的业务含义：Precision 对应"误伤多数类"的成本，Recall 对应"捕获少数类"的能力，F1 用调和平均惩罚短板；并给出 ROC 曲线的坐标含义（FPR 假正率、TPR 真正率/召回率）与 AUC 的使用边界。工程落地以...

2024/11/2

big-datamachine-learningsklearnevaluation-metricspython

大数据-79 Spark Standalone 模式：架构解析与性能调优

全面讲解 Spark Standalone 集群的四大核心组件、应用提交流程、SparkContext 内部架构，以及 Shuffle 演进历史和 RDD 优化策略。

2024/11/2

big-datasparkdistributed-systemdata-engineering

大数据-80 SparkSQL 入门：SQL 与分布式计算的融合

系统介绍 SparkSQL 的演进历史、核心抽象 DataFrame/Dataset、Catalyst 优化器原理，以及与 Hive/HDFS 多数据源集成的实战用法。

2024/11/2

big-datasparkscalasqldata-engineering

大数据-201 决策树从分裂到剪枝：信息增益/增益率、连续变量与CART要点

"分裂"到"剪枝"的完整链路，解释其为何通常采用贪心算法形成"局部最优"，以及不同算法在分裂准则上的差异：ID3/C4.5偏信息增益（Information Gain），但信息增益会偏向取值多的特征，因此引入信息增益比/增益率（Gain Ratio）做修正；CART常用二叉递归划分，分类树用基尼系数（Gini）度量不纯度，回归树常用方差/均方误差类指标。

2024/11/1

big-datamachine-learningsklearndecision-treepython

大数据-202 sklearn 决策树实战：criterion、Graphviz 可视化与剪枝防过拟合

DecisionTreeClassifier 在 load_wine 数据集完成从数据拆分、建模评估到决策树可视化的完整流程（2026版）。重点解释 criterion 的选择：gini（基尼不纯度）、entropy 与 log_loss（信息增益/香农信息）在分裂质量度量上的差异，以及 splitter=best/random、random_state 对树结构稳定性的影响。可视化部分通过...

2024/11/1

big-datamachine-learningsklearndecision-treepython

大数据-199 决策树模型详解：节点结构、条件概率视角与香农熵计算

决策树模型（Decision Tree）面向分类任务系统梳理：树的三类节点（根节点/内部节点/叶节点）、从根到叶的递归分裂流程，以及"分而治之"的规则生成机制。理论层面给出决策树的条件概率分布视角：特征空间被划分为互不重叠区域 R_j，叶节点估计 P(Y|X∈R_j)，预测时用 MAP 选择概率最大的类别

2024/10/31

big-datamachine-learningdecision-tree

大数据-200 决策树信息增益详解：信息熵、ID3 选特征与 Python 最佳切分实现

决策树信息增益（Information Gain）展开，先用信息熵（Entropy）解释不纯度，再说明为何在节点切分时要最大化父节点熵与子节点熵之差：在 Ent(D) 固定的前提下，最大化 Gain 等价于最小化分支不纯度的加权平均，从而得到局部最优切分

2024/10/31

big-datamachine-learningdecision-tree

大数据-197 K折交叉验证实战：sklearn 看均值/方差，选更稳的 KNN 超参

训练/测试随机划分会导致评估指标不稳定，并给出工程化解法：K折交叉验证（K-Fold Cross Validation）。通过sklearn的cross_val_score在训练集内部做多次划分，输出每折得分数组，进一步计算均值（mean）与方差（var），用"高均值+低方差"筛选更稳健的KNN超参数K

2024/10/30

big-datamachine-learningcross-validation

大数据-198 KNN 必须先归一化：Min-Max 正确姿势、数据泄露陷阱与 sklearn 落地

scikit-learn机器学习训练流程中，KNN这类距离模型对"量纲不统一"极其敏感：欧式距离的平方和会让数值尺度更大的特征主导距离，从而显著拖垮分类效果。Min-Max归一化通过"减最小值再除以极差"把特征压缩到[0,1]，是KNN的常用预处理。但工程上最容易踩坑的是数据泄露：把全量X先归一化再做train/test切分或交叉验证，会把测试集分布信息注入训练过程，导致评估虚高

2024/10/30

big-datamachine-learningknnnormalization

大数据-77 Spark RDD 容错机制：Checkpoint 原理与最佳实践

详解 Spark Checkpoint 的执行流程、与 persist/cache 的核心区别、分区器策略，以及在迭代算法和长依赖链场景下的最佳使用实践。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/10/30

big-datasparkscaladata-engineering

大数据-78 Spark 广播变量：高效共享只读数据

详解 Spark 广播变量的工作原理、配置参数与最佳实践，以及利用广播实现 MapSideJoin 替代 shuffle join 的性能优化方案。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2024/10/30

big-datasparkscaladata-engineering

大数据-195 KNN/K近邻算法实战：欧氏距离+投票机制手写实现，含可视化与调参要点

KNN/K近邻算法（K-Nearest Neighbors, KNN）：从欧氏距离计算、距离排序、TopK投票到函数封装，给出可复现的Python代码与matplotlib可视化。重点解释K值对模型偏差/方差的影响、噪声数据下为何需要更大的K、以及高维数据下距离度量与特征缩放对结果稳定性的决定作用

2024/10/29

big-datamachine-learningknn

大数据-196 scikit-learn KNN 实战：KNeighborsClassifier、kneighbo...

从统一 API（fit/predict/transform/score）到 kneighbors 找出测试样本的 K 个最近邻，再到用学习曲线/参数曲线选择 n_neighbors（K 值）。重点说明：KNN 对数据尺度敏感，未标准化会导致距离度量失真；而仅靠一次 train_test_split 的最高分来定"最佳 K"在不同 random_state 下会波动，需用 Stratifi...

2024/10/29

big-datamachine-learningsklearnknn

大数据-193 Apache Tez 实战：Hive on Tez 安装配置、DAG原理与常见坑

Apache Tez（示例版本 Tez 0.9.x）如何在 Hadoop2/YARN 上作为执行引擎替代 MapReduce，为 Hive on Tez、Pig on Tez 提供 DAG（有向无环图）执行模型。核心配置围绕 tez-site.xml 的 tez.lib.uris（将 Tez 包上传到 HDFS 并让集群可见）、客户端 HADOOP_CLASSPATH/TEZ_JARS、以及...

2024/10/28

big-datatezhive