标签: normalization

共 1 篇文章

大数据-198 KNN 必须先归一化：Min-Max 正确姿势、数据泄露陷阱与 sklearn 落地

scikit-learn机器学习训练流程中，KNN这类距离模型对"量纲不统一"极其敏感：欧式距离的平方和会让数值尺度更大的特征主导距离，从而显著拖垮分类效果。Min-Max归一化通过"减最小值再除以极差"把特征压缩到[0,1]，是KNN的常用预处理。但工程上最容易踩坑的是数据泄露：把全量X先归一化再做train/test切分或交叉验证，会把测试集分布信息注入训练过程，导致评估虚高

2024/10/30