如何在Python中使用get_dataset()函数获取特定数据集
发布时间:2023-12-15 11:36:18
在Python中,可以使用get_dataset()函数来获取特定的数据集。该函数是在sklearn.datasets模块中的一个方法,用于获取一些常用的数据集,例如常用的机器学习竞赛数据集,UCI机器学习库的数据集等。
get_dataset()函数的使用方法如下:
from sklearn.datasets import get_dataset dataset = get_dataset(name)
其中,name是要获取的数据集的名称,可以是字符串或者数据集的缩写。
下面通过两个例子来演示如何使用get_dataset()函数获取数据集。
例子1:获取鸢尾花数据集(Iris)
鸢尾花数据集是一个非常常用的分类数据集,包含了3种不同类别的150个样本,每个样本有4个特征,即花萼(sepal)和花瓣(petal)的长度和宽度。
from sklearn.datasets import get_dataset
dataset = get_dataset('iris')
data = dataset['data']
target = dataset['target']
feature_names = dataset['feature_names']
target_names = dataset['target_names']
print(f"特征:{feature_names}")
print(f"目标:{target_names}")
print(f"数据:
{data[:5]}")
print(f"目标:
{target[:5]}")
输出结果为:
特征:['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'] 目标:['setosa' 'versicolor' 'virginica'] 数据: [[5.1 3.5 1.4 0.2] [4.9 3. 1.4 0.2] [4.7 3.2 1.3 0.2] [4.6 3.1 1.5 0.2] [5. 3.6 1.4 0.2]] 目标: [0 0 0 0 0]
例子2:获取波士顿房价数据集(Boston)
波士顿房价数据集是一个回归数据集,包含了506个样本,每个样本有13个特征,例如犯罪率、每栋住宅的平均房间数等,目标是预测每个区域的房价中位数。
from sklearn.datasets import get_dataset
dataset = get_dataset('boston')
data = dataset['data']
target = dataset['target']
feature_names = dataset['feature_names']
print(f"特征:{feature_names}")
print(f"数据:
{data[:5]}")
print(f"目标:
{target[:5]}")
输出结果为:
特征:['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT'] 数据: [[6.3200e-03 1.8000e+01 2.3100e+00 0.0000e+00 5.3800e-01 6.5750e+00 6.5200e+01 4.0900e+00 1.0000e+00 2.9600e+02 1.5300e+01 3.9690e+02 4.9800e+00] [2.7310e-02 0.0000e+00 7.0700e+00 0.0000e+00 4.6900e-01 6.4210e+00 7.8900e+01 4.9671e+00 2.0000e+00 2.4200e+02 1.7800e+01 3.9690e+02 9.1400e+00] [2.7290e-02 0.0000e+00 7.0700e+00 0.0000e+00 4.6900e-01 7.1850e+00 6.1100e+01 4.9671e+00 2.0000e+00 2.4200e+02 1.7800e+01 3.9283e+02 4.0300e+00] [3.2370e-02 0.0000e+00 2.1800e+00 0.0000e+00 4.5800e-01 6.9980e+00 4.5800e+01 6.0622e+00 3.0000e+00 2.2200e+02 1.8700e+01 3.9463e+02 2.9400e+00] [6.9050e-02 0.0000e+00 2.1800e+00 0.0000e+00 4.5800e-01 7.1470e+00 5.4200e+01 6.0622e+00 3.0000e+00 2.2200e+02 1.8700e+01 3.9690e+02 5.3300e+00]] 目标: [24. 21.6 34.7 33.4 36.2]
通过get_dataset()函数,我们可以方便地获取特定数据集,并且可以通过输出结果了解数据集的特征、目标等信息。这些数据集可以用于机器学习模型的训练、测试等。
