微光实验室 · 标签归档

标签: 机器学习

共 34 篇文章，按主题汇总相关教程、案例、工程实践和阶段性总结。

AI-调查研究-91-具身智能多模态数据标注工具全景调研：从LabelStudio到3D点云视觉与点云标注工具

在机器人视觉与感知模型的训练中，高质量的多模态数据标注工具至关重要。当前主流方案涵盖了2D图像、视频、文本、音频及3D点云等多模态场景。

2025/9/30

大数据-278 Spark MLlib - 基础介绍机器学习算法梯度提升树 GBDT案例详解

GBDT 案例实战，手把手带你完成从残差计算到回归树构建与迭代训练的全过程，结合图示详细解析，最终预测精准输出！

2025/6/4

大数据-276 Spark MLlib - 基础介绍机器学习算法 Bagging和Boosting区别 GBDT 梯度提升决策树原理

本文介绍了机器学习中Bagging与Boosting的区别，以及GBDT（梯度提升决策树）算法原理。主要内容包括：1）Bagging和Boosting在数据采样、投票方式、学习顺序和应用场景上的差异；

2025/6/3

大数据-277 Spark MLlib - 基础介绍机器学习算法 Gradient Boosting GBDT算法原理与负梯度计算

本文介绍了梯度提升树（GBDT）算法的原理与应用。首先通过通俗例子说明提升树的基本思想，然后详细解析算法流程，包括负梯度计算、回归树拟合和模型更新等关键步骤。文章比较了GBDT与传统提升树的区别，并阐述了GBDT在回归和分类问题中的优势。

2025/6/3

大数据-275 Spark MLlib - 基础介绍机器学习算法集成学习随机森林 Bagging Boosting

本文系统介绍了机器学习中的集成学习方法。主要内容包括：1)集成学习的基本定义与分类，通过结合多个模型提升预测性能；2)Bagging方法原理及应用，重点讲解随机森林的实现过程；3)Boosting方法的核心思想...

2025/6/2

大数据-274 Spark MLlib - 基础介绍机器学习算法剪枝后剪枝 ID3 C4.5 CART

本文系统介绍了决策树的预剪枝与后剪枝原理，对比了ID3、C4.5和CART三种主流算法的核心差异，包括分裂标准、属性支持类型和剪枝方法。重点阐述了信息增益、信息增益率与基尼系数的计算原理，详细讲解了从树生成到剪枝的完整流程...

2025/5/29

大数据-273 Spark MLlib - 基础介绍机器学习算法决策树分类原则分类原理基尼系数熵

本文介绍了决策树的基本概念、分类原则和分类原理。决策树是一种非线性有监督分类模型，通过树形结构进行属性判断和分类。分类时应选择能将数据分类更纯粹的节点作为根节点，减少树高和训练次数。分类原理涉及熵、条件熵、信息增益等概念：

2025/5/28

大数据-272 Spark MLlib - 基础介绍机器学习算法逻辑回归

本文介绍了逻辑回归的基本原理、应用场景和在Spark MLlib中的实现。逻辑回归是一种高效二分类算法，广泛应用于广告点击率、垃圾邮件识别等领域。文章详细讲解了逻辑回归的输入函数、Sigmoid激活函数和损失计算方法...

2025/5/27

大数据-271 Spark MLlib - 基础介绍机器学习算法线性回归场景定义损失优化

线性回归（Linear Regression）是利用回归方程（函数）对一个或多个自变量和因变量之间关系进行建模的一种分析方式。特点：只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归。

2025/4/11

Spark MLlib 逻辑回归：Sigmoid、损失函数与糖尿病预测案例

逻辑回归是机器学习中的分类模型——一种高效的二分类算法，广泛应用于广告点击率预测、垃圾邮件识别等场景。本文介绍 Sigmoid 函数、损失函数和梯度下降优化。

2025/1/3

Spark MLlib 线性回归：场景、损失函数与梯度下降

线性回归是一种利用回归方程对自变量和因变量之间关系进行建模的分析方法。本文介绍线性回归的应用场景、损失函数和梯度下降优化算法。

2025/1/2

大数据-215 sklearn KMeans 关键属性与评估：cluster_centers_、inertia_、与指标选 K

场景：用 sklearn 做 KMeans 聚类，想解释中心点/损失，并用指标选 K。

2024/11/9

大数据-216 KMeans 选 n_clusters：轮廓系数（Silhouette）实战 + init/n_init/max_iter 参数调优

KMeans 选 nclusters 方法：在候选簇数（如 2/4/6/8）上计算 silhouettescore 与 silhouette_samples，结合轮廓系数分布图与聚类散点图判断最优。

2024/11/9

大数据-213 Python 手写 K-Means 聚类实战（鸢尾花 Iris 数据集）：从距离函数到迭代收敛与坑点

Python K-Means 聚类实现：基于 NumPy 广播计算欧式距离平方和（distEclud），在特征范围内均匀采样初始化质心（randCent），并使用 Pandas 统一容器 result_set 记录「最短距离/当前簇/上次簇...

2024/11/8

大数据-214 K-Means 聚类实战：自写算法验证 + sklearn KMeans 参数/labels_/fit_predict 验证

K-Means 聚类给出一套「可验证、可复现、可排错」的工程化流程：先用二维 testSet 数据集做算法验证（pd.read_table 读取、追加虚拟标签列、plt.scatter 可视化、绘制质心与聚类结果）...

2024/11/8

大数据-211 逻辑回归的 Scikit-Learn 实现：max_iter、分类方式与多元回归的优化方法

Scikit-Learn 中使用逻辑回归时，maxiter 控制最大迭代次数，影响模型的收敛速度和精度。如果训练未收敛，可能会收到警告提示需要增大 maxiter。不过，过高的迭代次数可能导致过拟合，影响测试集的表现。

2024/11/7

大数据-212 K-Means 聚类实战指南：从无监督概念到 Inertia、K 值选择与避坑

聚类算法 K-Means，梳理监督学习与无监督学习的差异（是否需要标签 Y），并给出聚类在客户细分、RFM 分析、图像/语音/视频压缩、异常检测等工程场景的落地路径。重点解释 K-Means 的关键概念「簇与质心」...

2024/11/7

大数据-209 深度理解逻辑回归（Logistic Regression）与梯度下降优化算法

逻辑回归（Logistic Regression, LR）是机器学习中重要的分类算法，广泛应用于二元分类任务，如情感分析、疾病预测、垃圾邮件检测等场景。尽管其名字中有"回归"二字，实则是一种分类方法。

2024/11/6

大数据-210 如何在Scikit-Learn中实现逻辑回归及正则化详解（L1与L2）

但随着C的逐渐变大，正则化的强度越来越小，模型在训练集和测试集上表现呈现了上升趋势，直到C=0.8左右，训练集上的表现依然走高，但模型在未知数据集上的表现就开始下跌，这时候就是出现了过拟合。正则化参数，LogisticRegression默...

2024/11/6

大数据-207 如何应对多重共线性：使用线性回归中的最小二乘法时常见问题与解决方案

scikit-learn 进行线性回归时，如何应对最小二乘法中的多重共线性问题。多重共线性可能导致回归模型的不稳定性，表现为参数估计值的不稳定、方差增大以及解的不唯一。文章详细介绍了多重共线性的成因及其影响，并提出了几种改进的回归方法...

2024/11/5

大数据-208 岭回归与Lasso回归：区别、应用与选择指南

岭回归（Ridge Regression）和Lasso回归（Lasso）是两种常用的线性回归正则化方法，用于解决机器学习中的过拟合和多重共线性问题。岭回归通过L2正则化项压缩回归系数，但不将其归零，适合特征间高度相关的场景；

2024/11/5

大数据-205 线性回归的机器学习视角：矩阵表示、SSE损失与最小二乘

线性回归（Linear Regression）的核心链路：用矩阵形式统一表示预测函数 y=Xw，将参数向量 w 作为唯一未知量；以损失函数刻画拟合误差，重点解释 SSE（残差平方和/误差平方和）作为回归任务的典型优化目标

2024/11/4

大数据-206 用 NumPy 矩阵乘法手写多元线性回归：正规方程、SSE/MSE/RMSE 与 R²

pandas DataFrame 与 NumPy 矩阵乘法手写多元线性回归（线性回归实现）。核心思路是将特征矩阵 X（包含一列全 1 作为截距）与标签 y 组成正规方程，通过 w=(X^TX)^{-1}X^Ty 直接求解参数权重。

2024/11/4

大数据-203 scikit-learn 决策树剪枝参数：max_depth/min_samples_leaf 参数调优

场景：DecisionTreeClassifier 过拟合、树太大/内存飙升、样本不均衡需要可控剪枝与权重结论：优先用 maxdepth + minsamplesleaf 做基线

2024/11/2

大数据-204 混淆矩阵到ROC：不平衡二分类评估指标全梳理 sklearn

混淆矩阵（TP、FP、FN、TN）建立统一口径，解释 Accuracy、Precision（查准率）、Recall（查全率/敏感度）、F1 Measure 的业务含义：Precision 对应"误伤多数类"的成本...

2024/11/2

大数据-201 决策树从分裂到剪枝：信息增益/增益率、连续变量与CART要点

"分裂"到"剪枝"的完整链路，解释其为何通常采用贪心算法形成"局部最优"，以及不同算法在分裂准则上的差异：ID3/C4.5偏信息增益（Information Gain），但信息增益会偏向取值多的特征，因此引入信息增益比/增益率（Gain R...

2024/11/1

大数据-202 sklearn 决策树实战：criterion、Graphviz 可视化与剪枝防过拟合

DecisionTreeClassifier 在 loadwine 数据集完成从数据拆分、建模评估到决策树可视化的完整流程（2026版）。重点解释 criterion 的选择：gini（基尼不纯度）、entropy 与 logloss（信息...

2024/11/1

大数据-199 决策树模型详解：节点结构、条件概率视角与香农熵计算

决策树模型（Decision Tree）面向分类任务系统梳理：树的三类节点（根节点/内部节点/叶节点）、从根到叶的递归分裂流程，以及"分而治之"的规则生成机制。理论层面给出决策树的条件概率分布视角：

2024/10/31

大数据-200 决策树信息增益详解：信息熵、ID3 选特征与 Python 最佳切分实现

决策树信息增益（Information Gain）展开，先用信息熵（Entropy）解释不纯度，再说明为何在节点切分时要最大化父节点熵与子节点熵之差：在 Ent(D) 固定的前提下，最大化 Gain 等价于最小化分支不纯度的加权平均...

2024/10/31

大数据-197 K折交叉验证实战：sklearn 看均值/方差，选更稳的 KNN 超参

训练/测试随机划分会导致评估指标不稳定，并给出工程化解法：K折交叉验证（K-Fold Cross Validation）。通过sklearn的crossvalscore在训练集内部做多次划分，输出每折得分数组...

2024/10/30

大数据-198 KNN 必须先归一化：Min-Max 正确姿势、数据泄露陷阱与 sklearn 落地

scikit-learn机器学习训练流程中，KNN这类距离模型对"量纲不统一"极其敏感：欧式距离的平方和会让数值尺度更大的特征主导距离，从而显著拖垮分类效果。Min-Max归一化通过"减最小值再除以极差"把特征压缩到[0,1]...

2024/10/30

大数据-195 KNN/K近邻算法实战：欧氏距离+投票机制手写实现，含可视化与调参要点

KNN/K近邻算法（K-Nearest Neighbors, KNN）：从欧氏距离计算、距离排序、TopK投票到函数封装，给出可复现的Python代码与matplotlib可视化。重点解释K值对模型偏差/方差的影响...

2024/10/29

大数据-196 scikit-learn KNN 实战：KNeighborsClassifier、kneighbors 最近邻与学习曲线选择

从统一 API（fit/predict/transform/score）到 kneighbors 找出测试样本的 K 个最近邻，再到用学习曲线/参数曲线选择 nneighbors（K 值）。重点说明：