博客
记录技术探索与思考 · 共 655 篇
大数据-207 如何应对多重共线性:使用线性回归中的最小二乘法时常见问题与解决方案
scikit-learn 进行线性回归时,如何应对最小二乘法中的多重共线性问题。多重共线性可能导致回归模型的不稳定性,表现为参数估计值的不稳定、方差增大以及解的不唯一。文章详细介绍了多重共线性的成因及其影响,并提出了几种改进的回归方法,如岭回归、Lasso回归等。
大数据-208 岭回归与Lasso回归:区别、应用与选择指南
岭回归(Ridge Regression)和Lasso回归(Lasso)是两种常用的线性回归正则化方法,用于解决机器学习中的过拟合和多重共线性问题。岭回归通过L2正则化项压缩回归系数,但不将其归零,适合特征间高度相关的场景;Lasso回归则采用L1正则化,有助于特征选择,将不重要的特征系数压缩为零,特别适用于高维数据。选择两者时需依据应用场景:岭回归适用于避免过拟合,Lasso则有助于模型解...
大数据-205 线性回归的机器学习视角:矩阵表示、SSE损失与最小二乘
线性回归(Linear Regression)的核心链路:用矩阵形式统一表示预测函数 y=Xw,将参数向量 w 作为唯一未知量;以损失函数刻画拟合误差,重点解释 SSE(残差平方和/误差平方和)作为回归任务的典型优化目标;通过最小二乘法(Least Squares)把"让 SSE 最小"转化为对参数求导并令一阶导为 0,从一元线性回归的直观拟合过渡到多元线性回归的矩阵推导与求解框架(正规...
大数据-206 用 NumPy 矩阵乘法手写多元线性回归:正规方程、SSE/MSE/RMSE 与 R²
pandas DataFrame 与 NumPy 矩阵乘法手写多元线性回归(线性回归实现)。核心思路是将特征矩阵 X(包含一列全 1 作为截距)与标签 y 组成正规方程,通过 w=(X^TX)^{-1}X^Ty 直接求解参数权重。实现中重点检查 X^TX 是否满秩:若行列式为 0 则矩阵奇异,无法求逆,需要改用伪逆或最小二乘。评估部分给出残差平方和 SSE、均方误差 MSE、均方根误差 RM...
大数据-203 scikit-learn 决策树剪枝参数:max_depth/min_samples_leaf 到...
scikit-learn 决策树剪枝(预剪枝)在工程落地中的常用参数:max_depth、min_samples_leaf、min_samples_split、max_features、min_impurity_decrease 与 class_weight,解释它们如何影响 DecisionTreeClassifier 的过拟合、树规模与泛化能力,并给出用学习曲线(score vs 超参数...
大数据-204 混淆矩阵到ROC:不平衡二分类评估指标全梳理 sklearn
混淆矩阵(TP、FP、FN、TN)建立统一口径,解释 Accuracy、Precision(查准率)、Recall(查全率/敏感度)、F1 Measure 的业务含义:Precision 对应"误伤多数类"的成本,Recall 对应"捕获少数类"的能力,F1 用调和平均惩罚短板;并给出 ROC 曲线的坐标含义(FPR 假正率、TPR 真正率/召回率)与 AUC 的使用边界。工程落地以...
大数据-79 Spark Standalone 模式:架构解析与性能调优
全面讲解 Spark Standalone 集群的四大核心组件、应用提交流程、SparkContext 内部架构,以及 Shuffle 演进历史和 RDD 优化策略。
大数据-80 SparkSQL 入门:SQL 与分布式计算的融合
系统介绍 SparkSQL 的演进历史、核心抽象 DataFrame/Dataset、Catalyst 优化器原理,以及与 Hive/HDFS 多数据源集成的实战用法。
大数据-201 决策树从分裂到剪枝:信息增益/增益率、连续变量与CART要点
"分裂"到"剪枝"的完整链路,解释其为何通常采用贪心算法形成"局部最优",以及不同算法在分裂准则上的差异:ID3/C4.5偏信息增益(Information Gain),但信息增益会偏向取值多的特征,因此引入信息增益比/增益率(Gain Ratio)做修正;CART常用二叉递归划分,分类树用基尼系数(Gini)度量不纯度,回归树常用方差/均方误差类指标。
大数据-202 sklearn 决策树实战:criterion、Graphviz 可视化与剪枝防过拟合
DecisionTreeClassifier 在 load_wine 数据集完成从数据拆分、建模评估到决策树可视化的完整流程(2026版)。重点解释 criterion 的选择:gini(基尼不纯度)、entropy 与 log_loss(信息增益/香农信息)在分裂质量度量上的差异,以及 splitter=best/random、random_state 对树结构稳定性的影响。可视化部分通过...
大数据-199 决策树模型详解:节点结构、条件概率视角与香农熵计算
决策树模型(Decision Tree)面向分类任务系统梳理:树的三类节点(根节点/内部节点/叶节点)、从根到叶的递归分裂流程,以及"分而治之"的规则生成机制。理论层面给出决策树的条件概率分布视角:特征空间被划分为互不重叠区域 R_j,叶节点估计 P(Y|X∈R_j),预测时用 MAP 选择概率最大的类别
大数据-200 决策树信息增益详解:信息熵、ID3 选特征与 Python 最佳切分实现
决策树信息增益(Information Gain)展开,先用信息熵(Entropy)解释不纯度,再说明为何在节点切分时要最大化父节点熵与子节点熵之差:在 Ent(D) 固定的前提下,最大化 Gain 等价于最小化分支不纯度的加权平均,从而得到局部最优切分
大数据-197 K折交叉验证实战:sklearn 看均值/方差,选更稳的 KNN 超参
训练/测试随机划分会导致评估指标不稳定,并给出工程化解法:K折交叉验证(K-Fold Cross Validation)。通过sklearn的cross_val_score在训练集内部做多次划分,输出每折得分数组,进一步计算均值(mean)与方差(var),用"高均值+低方差"筛选更稳健的KNN超参数K
大数据-198 KNN 必须先归一化:Min-Max 正确姿势、数据泄露陷阱与 sklearn 落地
scikit-learn机器学习训练流程中,KNN这类距离模型对"量纲不统一"极其敏感:欧式距离的平方和会让数值尺度更大的特征主导距离,从而显著拖垮分类效果。Min-Max归一化通过"减最小值再除以极差"把特征压缩到[0,1],是KNN的常用预处理。但工程上最容易踩坑的是数据泄露:把全量X先归一化再做train/test切分或交叉验证,会把测试集分布信息注入训练过程,导致评估虚高
大数据-77 Spark RDD 容错机制:Checkpoint 原理与最佳实践
详解 Spark Checkpoint 的执行流程、与 persist/cache 的核心区别、分区器策略,以及在迭代算法和长依赖链场景下的最佳使用实践。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-78 Spark 广播变量:高效共享只读数据
详解 Spark 广播变量的工作原理、配置参数与最佳实践,以及利用广播实现 MapSideJoin 替代 shuffle join 的性能优化方案。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-195 KNN/K近邻算法实战:欧氏距离+投票机制手写实现,含可视化与调参要点
KNN/K近邻算法(K-Nearest Neighbors, KNN):从欧氏距离计算、距离排序、TopK投票到函数封装,给出可复现的Python代码与matplotlib可视化。重点解释K值对模型偏差/方差的影响、噪声数据下为何需要更大的K、以及高维数据下距离度量与特征缩放对结果稳定性的决定作用
大数据-196 scikit-learn KNN 实战:KNeighborsClassifier、kneighbo...
从统一 API(fit/predict/transform/score)到 kneighbors 找出测试样本的 K 个最近邻,再到用学习曲线/参数曲线选择 n_neighbors(K 值)。重点说明:KNN 对数据尺度敏感,未标准化会导致距离度量失真;而仅靠一次 train_test_split 的最高分来定"最佳 K"在不同 random_state 下会波动,需用 Stratifi...
大数据-193 Apache Tez 实战:Hive on Tez 安装配置、DAG原理与常见坑
Apache Tez(示例版本 Tez 0.9.x)如何在 Hadoop2/YARN 上作为执行引擎替代 MapReduce,为 Hive on Tez、Pig on Tez 提供 DAG(有向无环图)执行模型。核心配置围绕 tez-site.xml 的 tez.lib.uris(将 Tez 包上传到 HDFS 并让集群可见)、客户端 HADOOP_CLASSPATH/TEZ_JARS、以及...
大数据-194 数据挖掘 从红酒分类到机器学习全景:监督/无监督/强化学习、特征空间与过拟合一次讲透
2025年仍最常用的机器学习概念框架:监督学习(分类/回归)、无监督学习(聚类/降维)、半监督学习与强化学习。重点解释输入空间、输出空间与特征空间的关系,以及过拟合/欠拟合在训练集与交叉验证集上的典型表现与治理思路