欢迎访问宙启技术站
智能推送

使用sklearn.datasets加载Boston房价数据集

发布时间:2024-01-17 04:16:54

在sklearn库中的datasets模块中,有一组标准的机器学习数据集可供使用,其中之一就是Boston房价数据集。该数据集包含了波士顿地区的房屋价格以及与之相关的特征信息,是一个经典的回归分析数据集。接下来,我们将使用sklearn.datasets模块中的功能加载Boston房价数据集,并使用一些例子来展示如何使用这个数据集。

首先,我们需要导入相应的模块和函数:

from sklearn.datasets import load_boston

接下来,我们可以使用load_boston()函数加载Boston房价数据集,并将其赋值给一个变量,例如:

data = load_boston()

load_boston()函数会返回一个Bunch对象,其中包含了数据集的各个部分。我们可以使用.dir()函数来查看该对象的属性和方法:

print(data.keys())

通过打印data的keys属性,我们可以查看到数据集的属性有哪些,包括'data'、'target'、'feature_names'、'DESCR'等等。其中,'data'属性存放了数据集的特征信息,'target'属性存放了每个样本对应的房屋价格,'feature_names'属性存放了特征的名称,'DESCR'属性则是关于数据集的详细描述。

下面的示例代码展示了如何获取数据集的特征和目标变量,并打印出它们的形状和前几行:

X = data.data
y = data.target
print("特征数据的形状:", X.shape)
print("目标变量的形状:", y.shape)
print("特征数据的前几行:
", X[:5])
print("目标变量的前几行:
", y[:5])

运行这段代码,可以看到特征数据的形状为(506, 13),即共有506个样本和13个特征;目标变量的形状为(506,),即共有506个目标变量;并且打印出了特征数据和目标变量的前几行。

此外,我们还可以使用data.feature_names属性来查看特征的名称,如下所示:

print("特征的名称:", data.feature_names)

运行以上代码,可以打印出特征的名称,例如:CRIM代表犯罪率、RM代表住宅的平均房间数等等。

通过上述例子,我们展示了如何使用sklearn.datasets模块加载Boston房价数据集,并获取数据集的特征和目标变量。这些数据对于进行回归分析或其他机器学习任务都非常有用。在实际应用中,我们可以进一步使用这些数据进行特征工程、模型训练和评估等。