了解sklearn.impute的SimpleImputer()函数，完善数据处理流程

发布时间：2024-01-03 05:23:49

sklearn.impute模块中的SimpleImputer()函数用于填补缺失值。在机器学习中，数据往往包含缺失值，这些缺失值会对模型的性能产生负面影响。SimpleImputer()函数提供了一种简单而有效的方法来处理数据集中的缺失值。

SimpleImputer()函数的基本语法如下：

class sklearn.impute.SimpleImputer(*, missing_values=nan, strategy=’mean’, fill_value=None, verbose=0, copy=True, add_indicator=False)

参数说明：

- missing_values：指定缺失值的形式，默认为NaN。

- strategy：指定缺失值的填充策略。常用的策略包括'mean' （均值）、'median'（中位数）、'most_frequent'（众数）和'constant'（常数）。

- fill_value：当strategy为'constant'时，可以使用fill_value参数指定常数的值。

- verbose：控制是否输出填充过程中的提示信息，默认为0。

- copy：指定是否将填充后的结果复制到新的数组中，默认为True。

- add_indicator：指定是否添加一个附加特征来表示哪些位置被填充，默认为False。

下面是一个简单的例子，以展示如何使用SimpleImputer()函数进行数据处理。

import numpy as np
from sklearn.impute import SimpleImputer

# 创建一个包含缺失值的数组
X = np.array([[1, 2, np.nan], [3, np.nan, 5], [np.nan, 4, 6], [8, 8, 9]])

# 创建一个SimpleImputer对象，使用中位数填充缺失值
imputer = SimpleImputer(strategy='median')

# 对数组进行缺失值填充
X_filled = imputer.fit_transform(X)

print("填充前的数组：")
print(X)

print("填充后的数组：")
print(X_filled)

在上述例子中，我们首先创建了一个包含缺失值的数组X。然后，我们创建了一个SimpleImputer对象imputer，并将填充策略指定为中位数（strategy='median'）。接下来，我们使用fit_transform()方法对数组X进行缺失值填充，得到填充后的数组X_filled。

最后，我们分别输出了填充前和填充后的数组。结果如下：

填充前的数组：
[[ 1.  2. nan]
 [ 3. nan  5.]
 [nan  4.  6.]
 [ 8.  8.  9.]]
 
填充后的数组：
[[1. 2. 6.5]
 [3. 4. 5. ]
 [3. 4. 6. ]
 [8. 8. 9. ]]

可以看到，填充前的数组中存在缺失值（NaN），而填充后的数组中这些缺失值被中位数填充（即6.5）。通过SimpleImputer()函数的使用，我们可以方便地处理数据集中的缺失值，从而提高模型的准确性和鲁棒性。