标签: knn

共 3 篇文章

大数据-198 KNN 必须先归一化：Min-Max 正确姿势、数据泄露陷阱与 sklearn 落地

scikit-learn机器学习训练流程中，KNN这类距离模型对"量纲不统一"极其敏感：欧式距离的平方和会让数值尺度更大的特征主导距离，从而显著拖垮分类效果。Min-Max归一化通过"减最小值再除以极差"把特征压缩到[0,1]，是KNN的常用预处理。但工程上最容易踩坑的是数据泄露：把全量X先归一化再做train/test切分或交叉验证，会把测试集分布信息注入训练过程，导致评估虚高

2024/10/30

大数据-195 KNN/K近邻算法实战：欧氏距离+投票机制手写实现，含可视化与调参要点

KNN/K近邻算法（K-Nearest Neighbors, KNN）：从欧氏距离计算、距离排序、TopK投票到函数封装，给出可复现的Python代码与matplotlib可视化。重点解释K值对模型偏差/方差的影响、噪声数据下为何需要更大的K、以及高维数据下距离度量与特征缩放对结果稳定性的决定作用

2024/10/29

大数据-196 scikit-learn KNN 实战：KNeighborsClassifier、kneighbors 与学习曲线选最优

从统一 API（fit/predict/transform/score）到 kneighbors 找出测试样本的 K 个最近邻，再到用学习曲线/参数曲线选择 n_neighbors（K 值）。重点说明：KNN 对数据尺度敏感，未标准化会导致距离度量失真；而仅靠一次 train_test_split 的最高分来定"最佳 K"在不同 random_state 下会波动，需用 StratifiedKFold 交叉验证配合 GridSearchCV/RandomizedSearchCV 才能稳定选参

2024/10/29