交叉验证

3/20/2025 89 阅读

一、什么是交叉验证？

交叉验证是一种评估机器学习模型性能的方法，通过多次划分数据为训练集和验证集，然后取平均结果，使评估更可靠。

二、为什么需要交叉验证？

想象你是老师，如果只用一次考试评价学生，可能不够全面：

这次考试可能恰好考到学生擅长的内容
或者恰好考到学生不擅长的内容

交叉验证就像多次考试取平均分，更全面地评估学生真实水平。

三、K折交叉验证的原理

K折交叉验证步骤：

将数据随机分成K份
每次取其中一份作为验证集，其余K-1份作为训练集
重复K次，得到K个评估结果
计算这K个结果的平均值

四、简化代码实现

# 导入必要的库
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

# 创建KNN分类器
knn = KNeighborsClassifier(n_neighbors=5)

# 使用5折交叉验证评估模型
cv_scores = cross_val_score(knn, X, y, cv=5)
print(f"5折交叉验证的准确率: {cv_scores}")
print(f"平均准确率: {cv_scores.mean():.4f}")

# 比较不同K值的KNN模型性能
k_range = range(1, 11)  # 只测试1到10的K值
k_scores = []

for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    scores = cross_val_score(knn, X, y, cv=5)
    k_scores.append(scores.mean())

# 可视化不同K值的性能
plt.figure(figsize=(8, 5))
plt.plot(k_range, k_scores, marker='o')
plt.xlabel('K值 (近邻数)')
plt.ylabel('交叉验证平均准确率')
plt.title('KNN: 不同K值的交叉验证性能')
plt.grid(True)
plt.show()

五、代码解释

1. 加载数据集

iris = load_iris()
X = iris.data
y = iris.target

使用鸢尾花数据集，包含150个样本，4个特征，3个类别。

2. 进行交叉验证

cv_scores = cross_val_score(knn, X, y, cv=5)

这一行代码完成了整个5折交叉验证过程：

将数据分成5份
训练5次模型，每次用不同的验证集
返回5个准确率分数

3. 使用交叉验证选择最佳K值

for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    scores = cross_val_score(knn, X, y, cv=5)
    k_scores.append(scores.mean())

这段代码测试了K值从1到10的KNN模型，找出哪个K值的交叉验证准确率最高。

六、交叉验证的优缺点

优点

更可靠地评估模型性能
充分利用有限的数据
帮助选择最佳模型参数

缺点

计算成本高，需要训练K次模型
对于大数据集可能耗时较长

七、小结

交叉验证就像多次考试取平均分，能更全面地评估模型性能。它不仅用于评估模型，还广泛用于选择最佳模型参数。

通过简单的代码示例，我们看到了如何使用交叉验证评估KNN模型，以及如何找出最佳的K值。这种方法可以应用于各种机器学习模型，帮助我们构建更可靠的预测系统。

文章大纲