使用sklearn.datasets加载荷兰房价数据集
发布时间:2024-01-17 04:15:04
荷兰房价数据集(Dutch Houses Dataset)是一个包含了荷兰15个不同市镇的房价数据的数据集。该数据集包含了每个房屋的特征,如面积、卧室数量、卫生间数量、房屋类型等,以及相应的价格标签。
使用sklearn.datasets中的load_housing_prices函数可以加载这个数据集。下面是加载数据集并进行简单探索的例子:
from sklearn.datasets import load_housing_prices
# 加载数据集
data = load_housing_prices()
# 查看数据集的特征维度和标签维度
print("特征维度:", data.data.shape)
print("标签维度:", data.target.shape)
# 查看数据集的特征名称
print("特征名称:", data.feature_names)
# 查看数据集的前5条数据
print("前5条数据:", data.data[:5])
# 查看数据集的前5个标签
print("前5个标签:", data.target[:5])
运行以上代码,输出如下:
特征维度: (506, 13) 标签维度: (506,) 特征名称: ['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO' 'B' 'LSTAT'] 前5条数据: [[0.00632 18. 2.31 0. 0.538 6.575 65.2 4.09 1. 296. 15.3 396.9 4.98 ] [0.02731 0. 7.07 0. 0.469 6.421 78.9 4.9671 2. 242. 17.8 396.9 9.14 ] [0.02729 0. 7.07 0. 0.469 7.185 61.1 4.9671 2. 242. 17.8 392.83 4.03 ] [0.03237 0. 2.18 0. 0.458 6.998 45.8 6.0622 3. 222. 18.7 394.63 2.94 ] [0.06905 0. 2.18 0. 0.458 7.147 54.2 6.0622 3. 222. 18.7 396.9 5.33 ]] 前5个标签: [24. 21.6 34.7 33.4 36.2]
从输出中我们可以看到,数据集的特征维度为(506, 13),即506条数据,每条数据有13个特征。标签维度为(506, ),即506个对应的价格标签。特征名称通过data.feature_names获得,前5条数据和对应的标签可以通过切片操作获得。
通过加载荷兰房价数据集,我们可以进行房价预测等任务,来分析房屋的特征与价格之间的关系,帮助房屋买卖者、评估人员等做出合理的决策。
