欢迎访问宙启技术站
智能推送

如何在Python中使用get_dataset()函数获取特定数据集

发布时间:2023-12-15 11:36:18

在Python中,可以使用get_dataset()函数来获取特定的数据集。该函数是在sklearn.datasets模块中的一个方法,用于获取一些常用的数据集,例如常用的机器学习竞赛数据集,UCI机器学习库的数据集等。

get_dataset()函数的使用方法如下:

from sklearn.datasets import get_dataset

dataset = get_dataset(name)

其中,name是要获取的数据集的名称,可以是字符串或者数据集的缩写。

下面通过两个例子来演示如何使用get_dataset()函数获取数据集。

例子1:获取鸢尾花数据集(Iris)

鸢尾花数据集是一个非常常用的分类数据集,包含了3种不同类别的150个样本,每个样本有4个特征,即花萼(sepal)和花瓣(petal)的长度和宽度。

from sklearn.datasets import get_dataset

dataset = get_dataset('iris')
data = dataset['data']
target = dataset['target']
feature_names = dataset['feature_names']
target_names = dataset['target_names']

print(f"特征:{feature_names}")
print(f"目标:{target_names}")
print(f"数据:
{data[:5]}")
print(f"目标:
{target[:5]}")

输出结果为:

特征:['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
目标:['setosa' 'versicolor' 'virginica']
数据:
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]
目标:
[0 0 0 0 0]

例子2:获取波士顿房价数据集(Boston)

波士顿房价数据集是一个回归数据集,包含了506个样本,每个样本有13个特征,例如犯罪率、每栋住宅的平均房间数等,目标是预测每个区域的房价中位数。

from sklearn.datasets import get_dataset

dataset = get_dataset('boston')
data = dataset['data']
target = dataset['target']
feature_names = dataset['feature_names']

print(f"特征:{feature_names}")
print(f"数据:
{data[:5]}")
print(f"目标:
{target[:5]}")

输出结果为:

特征:['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']
数据:
[[6.3200e-03 1.8000e+01 2.3100e+00 0.0000e+00 5.3800e-01 6.5750e+00
  6.5200e+01 4.0900e+00 1.0000e+00 2.9600e+02 1.5300e+01 3.9690e+02
  4.9800e+00]
 [2.7310e-02 0.0000e+00 7.0700e+00 0.0000e+00 4.6900e-01 6.4210e+00
  7.8900e+01 4.9671e+00 2.0000e+00 2.4200e+02 1.7800e+01 3.9690e+02
  9.1400e+00]
 [2.7290e-02 0.0000e+00 7.0700e+00 0.0000e+00 4.6900e-01 7.1850e+00
  6.1100e+01 4.9671e+00 2.0000e+00 2.4200e+02 1.7800e+01 3.9283e+02
  4.0300e+00]
 [3.2370e-02 0.0000e+00 2.1800e+00 0.0000e+00 4.5800e-01 6.9980e+00
  4.5800e+01 6.0622e+00 3.0000e+00 2.2200e+02 1.8700e+01 3.9463e+02
  2.9400e+00]
 [6.9050e-02 0.0000e+00 2.1800e+00 0.0000e+00 4.5800e-01 7.1470e+00
  5.4200e+01 6.0622e+00 3.0000e+00 2.2200e+02 1.8700e+01 3.9690e+02
  5.3300e+00]]
目标:
[24.  21.6 34.7 33.4 36.2]

通过get_dataset()函数,我们可以方便地获取特定数据集,并且可以通过输出结果了解数据集的特征、目标等信息。这些数据集可以用于机器学习模型的训练、测试等。