标签: knn

共 3 篇文章

大数据-198 KNN 必须先归一化:Min-Max 正确姿势、数据泄露陷阱与 sklearn 落地

scikit-learn机器学习训练流程中,KNN这类距离模型对"量纲不统一"极其敏感:欧式距离的平方和会让数值尺度更大的特征主导距离,从而显著拖垮分类效果。Min-Max归一化通过"减最小值再除以极差"把特征压缩到[0,1],是KNN的常用预处理。但工程上最容易踩坑的是数据泄露:把全量X先归一化再做train/test切分或交叉验证,会把测试集分布信息注入训练过程,导致评估虚高

大数据-195 KNN/K近邻算法实战:欧氏距离+投票机制手写实现,含可视化与调参要点

KNN/K近邻算法(K-Nearest Neighbors, KNN):从欧氏距离计算、距离排序、TopK投票到函数封装,给出可复现的Python代码与matplotlib可视化。重点解释K值对模型偏差/方差的影响、噪声数据下为何需要更大的K、以及高维数据下距离度量与特征缩放对结果稳定性的决定作用

大数据-196 scikit-learn KNN 实战:KNeighborsClassifier、kneighbors 与学习曲线选最优

从统一 API(fit/predict/transform/score)到 kneighbors 找出测试样本的 K 个最近邻,再到用学习曲线/参数曲线选择 n_neighbors(K 值)。重点说明:KNN 对数据尺度敏感,未标准化会导致距离度量失真;而仅靠一次 train_test_split 的最高分来定"最佳 K"在不同 random_state 下会波动,需用 StratifiedKFold 交叉验证配合 GridSearchCV/RandomizedSearchCV 才能稳定选参