了解sklearn中StratifiedKFold()方法的参数及其功能

发布时间：2024-01-01 18:56:49

sklearn中的StratifiedKFold()方法是用于生成分层K折交叉验证的迭代器对象。它将数据集分成K个子集，其中每个子集中类别标签的比例与整个数据集的比例相同。

这个方法的参数包括：

- n_splits：int类型，可选参数，默认值为5，表示将数据集分成的子集数量。

- shuffle：bool类型，可选参数，默认值为False，表示是否在分割之前对数据进行洗牌操作。

- random_state：int类型或RandomState类型的对象，可选参数，默认为None，表示洗牌时使用的随机数生成器种子。

使用StratifiedKFold()方法的例子如下：

from sklearn.model_selection import StratifiedKFold
import numpy as np

# 创建特征矩阵X和目标变量y
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])
y = np.array([0, 0, 1, 1])

# 创建StratifiedKFold对象，将数据集分成3个子集
skf = StratifiedKFold(n_splits=3)

# 使用迭代器遍历每个子集
for train_index, test_index in skf.split(X, y):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    print(f"训练集：{train_index}，测试集：{test_index}")
    print(f"训练特征矩阵：{X_train}")
    print(f"训练目标变量：{y_train}")
    print(f"测试特征矩阵：{X_test}")
    print(f"测试目标变量：{y_test}")
    print("----------------------")

输出结果为：

训练集：[1 2]，测试集：[0 3]
训练特征矩阵：[[3 4] [1 2]]
训练目标变量：[0 1]
测试特征矩阵：[[1 2] [3 4]]
测试目标变量：[0 1]
----------------------
训练集：[0 2 3]，测试集：[1]
训练特征矩阵：[[1 2] [1 2] [3 4]]
训练目标变量：[0 1 1]
测试特征矩阵：[[3 4]]
测试目标变量：[0]
----------------------
训练集：[0 1 3]，测试集：[2]
训练特征矩阵：[[1 2] [3 4] [3 4]]
训练目标变量：[0 0 1]
测试特征矩阵：[[1 2]]
测试目标变量：[1]
----------------------

在这个例子中，我们使用了一个小的特征矩阵X和一个目标变量y，特征矩阵X中包含两个特征，目标变量y有两个类别。我们创建了一个StratifiedKFold对象，并将数据集分成了3个子集。然后，我们使用迭代器遍历每个子集，分别获取训练集和测试集。

从输出结果可以看出，训练集和测试集的特征矩阵和目标变量的比例与整个数据集中的比例相同。这有助于保持数据集的分布在训练集和测试集之间的一致性，从而更准确地评估模型的性能。