使用sklearn.datasets加载Boston房价数据集

发布时间：2024-01-17 04:16:54

在sklearn库中的datasets模块中，有一组标准的机器学习数据集可供使用，其中之一就是Boston房价数据集。该数据集包含了波士顿地区的房屋价格以及与之相关的特征信息，是一个经典的回归分析数据集。接下来，我们将使用sklearn.datasets模块中的功能加载Boston房价数据集，并使用一些例子来展示如何使用这个数据集。

首先，我们需要导入相应的模块和函数：

from sklearn.datasets import load_boston

接下来，我们可以使用load_boston()函数加载Boston房价数据集，并将其赋值给一个变量，例如：

data = load_boston()

load_boston()函数会返回一个Bunch对象，其中包含了数据集的各个部分。我们可以使用.dir()函数来查看该对象的属性和方法：

print(data.keys())

通过打印data的keys属性，我们可以查看到数据集的属性有哪些，包括'data'、'target'、'feature_names'、'DESCR'等等。其中，'data'属性存放了数据集的特征信息，'target'属性存放了每个样本对应的房屋价格，'feature_names'属性存放了特征的名称，'DESCR'属性则是关于数据集的详细描述。

下面的示例代码展示了如何获取数据集的特征和目标变量，并打印出它们的形状和前几行：

X = data.data
y = data.target
print("特征数据的形状：", X.shape)
print("目标变量的形状：", y.shape)
print("特征数据的前几行：
", X[:5])
print("目标变量的前几行：
", y[:5])

运行这段代码，可以看到特征数据的形状为(506, 13)，即共有506个样本和13个特征；目标变量的形状为(506,)，即共有506个目标变量；并且打印出了特征数据和目标变量的前几行。

此外，我们还可以使用data.feature_names属性来查看特征的名称，如下所示：

print("特征的名称：", data.feature_names)

运行以上代码，可以打印出特征的名称，例如：CRIM代表犯罪率、RM代表住宅的平均房间数等等。

通过上述例子，我们展示了如何使用sklearn.datasets模块加载Boston房价数据集，并获取数据集的特征和目标变量。这些数据对于进行回归分析或其他机器学习任务都非常有用。在实际应用中，我们可以进一步使用这些数据进行特征工程、模型训练和评估等。