sklearn中的StratifiedKFold()方法详解

发布时间：2024-01-01 18:51:42

StratifiedKFold是scikit-learn库中用于交叉验证的方法之一。它可以将数据集划分成K个等大小的子集，并且保持每个子集中各类别样本的比例与原始数据集中的比例相同。

使用StratifiedKFold方法，需要先导入sklearn.model_selection模块。然后可以通过调用StratifiedKFold类来创建一个对象，该对象可以用于划分数据集。

以下是StratifiedKFold方法的详细介绍和一个使用例子：

首先，我们导入必要的库和模块：

from sklearn.model_selection import StratifiedKFold
import numpy as np

然后，我们创建一个示例数据集和相应的目标变量：

X = np.array([[1, 2], [3, 4], [1, 2], [3, 4], [5, 6], [1, 2]])
y = np.array([0, 0, 0, 1, 1, 1])

接下来，我们创建一个StratifiedKFold对象，并指定划分数据集的参数：

skf = StratifiedKFold(n_splits=3, shuffle=True, random_state=42)

这里的参数n_splits表示将数据集划分成几个子集，shuffle表示是否在划分之前打乱数据集，random_state是随机种子。

最后，我们可以使用skf对象的split方法来划分数据集，并循环遍历每个子集的索引：

for train_index, test_index in skf.split(X, y):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    print("Train:", train_index, "Test:", test_index)
    print("X_train:", X_train)
    print("y_train:", y_train)
    print("X_test:", X_test)
    print("y_test:", y_test)

运行以上代码，输出的结果如下所示：

Train: [0 1 3 4] Test: [2 5]
X_train: [[1 2]
 [3 4]
 [3 4]
 [5 6]]
y_train: [0 0 1 1]
X_test: [[1 2]
 [1 2]]
y_test: [0 1]
Train: [0 2 3 5] Test: [1 4]
X_train: [[1 2]
 [1 2]
 [3 4]
 [1 2]]
y_train: [0 0 1 1]
X_test: [[3 4]
 [5 6]]
y_test: [0 1]
Train: [1 2 4 5] Test: [0 3]
X_train: [[3 4]
 [1 2]
 [5 6]
 [1 2]]
y_train: [0 0 1 1]
X_test: [[1 2]
 [3 4]]
y_test: [0 1]

从输出可以看出，通过使用StratifiedKFold划分数据集，我们将数据集划分成了3个子集，并且每个子集中各类别样本的比例与原始数据集中的比例相同。在每次循环中，我们得到了训练集和测试集的索引，可以进一步将数据集划分成训练集和测试集。

这样，我们就可以使用这些训练集和测试集来进行交叉验证，评估模型的性能并选择最合适的模型参数。