欢迎访问宙启技术站
智能推送

在Python中使用sklearn.utils进行数据集划分的步骤详解

发布时间:2023-12-15 18:40:22

使用sklearn.utils进行数据集划分的步骤如下:

1. 导入必要的库:

from sklearn import datasets
from sklearn.model_selection import train_test_split

2. 加载数据集:

# 加载鸢尾花数据集作为示例
iris = datasets.load_iris()
X = iris.data  # 数据特征
y = iris.target  # 数据标签

3. 划分数据集:

# 划分数据集为训练集和测试集,默认按照7:3的比例划分
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

4. 可选步骤:设置其他参数,例如划分比例、随机种子等。

# 按照8:2的比例划分数据集,并设置随机种子为42
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

下面给出完整的示例代码:

from sklearn import datasets
from sklearn.model_selection import train_test_split

# 加载鸢尾花数据集作为示例
iris = datasets.load_iris()
X = iris.data  # 数据特征
y = iris.target  # 数据标签

# 划分数据集为训练集和测试集,默认按照7:3的比例划分
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# 验证划分结果
print("训练集特征 shape:", X_train.shape)
print("训练集标签 shape:", y_train.shape)
print("测试集特征 shape:", X_test.shape)
print("测试集标签 shape:", y_test.shape)

运行上述代码,输出结果如下:

训练集特征 shape: (112, 4)
训练集标签 shape: (112,)
测试集特征 shape: (38, 4)
测试集标签 shape: (38,)

以上就是使用sklearn.utils进行数据集划分的详细步骤和示例。可以根据实际需求调整划分比例和其他参数,以便得到满足实际情况的训练集和测试集。