在Python中使用sklearn.utils进行数据集划分的步骤详解
发布时间:2023-12-15 18:40:22
使用sklearn.utils进行数据集划分的步骤如下:
1. 导入必要的库:
from sklearn import datasets from sklearn.model_selection import train_test_split
2. 加载数据集:
# 加载鸢尾花数据集作为示例 iris = datasets.load_iris() X = iris.data # 数据特征 y = iris.target # 数据标签
3. 划分数据集:
# 划分数据集为训练集和测试集,默认按照7:3的比例划分 X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
4. 可选步骤:设置其他参数,例如划分比例、随机种子等。
# 按照8:2的比例划分数据集,并设置随机种子为42 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
下面给出完整的示例代码:
from sklearn import datasets
from sklearn.model_selection import train_test_split
# 加载鸢尾花数据集作为示例
iris = datasets.load_iris()
X = iris.data # 数据特征
y = iris.target # 数据标签
# 划分数据集为训练集和测试集,默认按照7:3的比例划分
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
# 验证划分结果
print("训练集特征 shape:", X_train.shape)
print("训练集标签 shape:", y_train.shape)
print("测试集特征 shape:", X_test.shape)
print("测试集标签 shape:", y_test.shape)
运行上述代码,输出结果如下:
训练集特征 shape: (112, 4) 训练集标签 shape: (112,) 测试集特征 shape: (38, 4) 测试集标签 shape: (38,)
以上就是使用sklearn.utils进行数据集划分的详细步骤和示例。可以根据实际需求调整划分比例和其他参数,以便得到满足实际情况的训练集和测试集。
