共 1 篇文章
scikit-learn机器学习训练流程中,KNN这类距离模型对"量纲不统一"极其敏感:欧式距离的平方和会让数值尺度更大的特征主导距离,从而显著拖垮分类效果。Min-Max归一化通过"减最小值再除以极差"把特征压缩到[0,1],是KNN的常用预处理。但工程上最容易踩坑的是数据泄露:把全量X先归一化再做train/test切分或交叉验证,会把测试集分布信息注入训练过程,导致评估虚高