欢迎访问宙启技术站
智能推送

使用sklearn.datasets加载波士顿房价数据集

发布时间:2024-01-17 04:10:00

sklearn.datasets是scikit-learn库中的一个模块,用于加载一些经典的机器学习数据集。其中一个著名的数据集是波士顿房价数据集(Boston Housing Dataset),用于预测波士顿地区的房价。

首先,我们需要导入sklearn.datasets模块和其他相关的库:

from sklearn import datasets
import pandas as pd
import numpy as np

接下来,我们使用datasets.load_boston()函数加载波士顿房价数据集:

boston = datasets.load_boston()

boston变量是一个字典对象,包含了数据集的各个部分。我们可以使用以下命令查看数据集的相关信息:

print(boston.keys())

输出结果为:

dict_keys(['data', 'target', 'feature_names', 'DESCR', 'filename'])

其中,data是房价数据集的特征部分,target是目标值(房价),feature_names是特征的名称,DESCR是数据集的描述,filename是数据集文件的保存路径。

接下来,我们可以将数据集转换为Pandas的DataFrame,方便数据处理和分析:

df = pd.DataFrame(boston.data, columns=boston.feature_names)
df['PRICE'] = boston.target # 添加目标值(房价)列

现在,我们可以通过打印df的前几行来查看数据集的内容:

print(df.head())

输出结果为:

      CRIM    ZN  INDUS  CHAS    NOX     RM   AGE     DIS  RAD    TAX  PTRATIO       B  LSTAT  PRICE
0  0.00632  18.0   2.31   0.0  0.538  6.575  65.2  4.0900  1.0  296.0     15.3  396.90   4.98   24.0
1  0.02731   0.0   7.07   0.0  0.469  6.421  78.9  4.9671  2.0  242.0     17.8  396.90   9.14   21.6
2  0.02729   0.0   7.07   0.0  0.469  7.185  61.1  4.9671  2.0  242.0     17.8  392.83   4.03   34.7
3  0.03237   0.0   2.18   0.0  0.458  6.998  45.8  6.0622  3.0  222.0     18.7  394.63   2.94   33.4
4  0.06905   0.0   2.18   0.0  0.458  7.147  54.2  6.0622  3.0  222.0     18.7  396.90   5.33   36.2

现在我们可以对数据集进行各种数据处理和特征工程。例如,我们可以使用df.describe()来查看数据集的统计信息:

print(df.describe())

输出结果为:

`

CRIM ZN INDUS CHAS NOX RM AGE DIS RAD TAX PTRATIO B LSTAT PRICE

count 506.000000 506.000000 506.000000 506.000000 506.000000 506.000000 506.000000 506.000000 506.000000 506.000000 506.000000 506.000000 506.000000 506.000000

mean 3.593761 11.363636 11.136779 0.069170 0.554695 6.284634 68.574901 3.795043 9.549407 408.237154 18.455534 356.674032 12.653063 22.532806

std 8.596783 23.322453 6.860353 0.253994 0.115878 0.702617 28.148861 2.105710 8.707259 168.537116 2.164946 91.294864 7.141062 9.197104

min 0.006320 0.000000 0.460000 0.000000 0.385000 3.561000 2.900000 1.129600 1.000000 187.000000 12.600000 0.320000 1.730000 5.000000

25% 0.082045 0.000000 5.190000 0.000000 0.449000 5.885500 45.025000 2.100175 4.000000 279.000000 17.400000 375.377500 6.950000 17.025000

50% 0.256510 0.000000 9.690000 0.000000 0.538000 6.208500 77.500000 3.207450 5.000000 330.000000 19.050000 391.440000 11.360000 21.200000

75% 3.647423 12.500000 18.100000 0.000000 0.624000 6.623500 94.075000 5.188425 24.000000 666.000000 20.200000 396.225000 16.955000 25.000000

max 88.976200 100.000000 27.740000 1.000000