Python中使用sklearn.imputeSimpleImputer()进行数据不完整值的处理

发布时间：2024-01-18 23:50:41

在Python中，我们可以使用Scikit-learn库的SimpleImputer类来处理数据中的不完整值。SimpleImputer提供了一种简单但有效的方法来处理缺失值，并且可以与其他Scikit-learn预处理和建模步骤无缝集成。

首先，我们需要安装Scikit-learn库。可以使用以下命令来进行安装：

pip install -U scikit-learn

接下来，我们将使用一个示例数据集来演示如何使用SimpleImputer类。假设我们有一个包含数值特征的数据集，其中一些值缺失了。

import numpy as np
from sklearn.impute import SimpleImputer

# 示例数据
X = np.array([[1, 2, np.nan],
              [3, np.nan, 4],
              [np.nan, 5, 6],
              [8, 9, 10]])

# 实例化一个SimpleImputer对象
imputer = SimpleImputer()

# 使用fit_transform()方法对数据进行转换
X_imputed = imputer.fit_transform(X)

print(X_imputed)

这里，我们导入了numpy库用于创建示例数据。然后，我们从sklearn.impute模块导入SimpleImputer类。接下来，我们创建了一个包含缺失值的示例数据集X。

然后，我们实例化一个SimpleImputer对象imputer，使用默认参数。SimpleImputer类的默认参数是使用缺失值所在列的平均值来替换缺失值。

最后，我们使用fit_transform()方法对数据进行转换。fit_transform()方法会自动计算并替换数据中的缺失值。运行上述代码，我们可以看到输出结果如下：

[[ 1.  2.  7.]
 [ 3.  5.  4.]
 [ 4.  5.  6.]
 [ 8.  9. 10.]]

在这个例子中，SimpleImputer类将缺失值所在列的平均值(即缺失值所在列的非缺失值的平均值)用一个对应的值替换。

除了使用默认参数来填充缺失值外，SimpleImputer类还提供了其他参数来进行灵活的缺失值填充。例如，可以使用strategy参数来指定其他替换策略，比如使用中位数、众数等。可以使用add_indicator参数来指定是否同时创建一个指示器矩阵，该矩阵记录了哪些值是被填充的。

import numpy as np
from sklearn.impute import SimpleImputer

# 示例数据
X = np.array([[1, 2, np.nan],
              [3, np.nan, 4],
              [np.nan, 5, 6],
              [8, 9, 10]])

# 实例化一个SimpleImputer对象，指定替换策略为中位数，同时创建指示器矩阵
imputer = SimpleImputer(strategy='median', add_indicator=True)

# 使用fit_transform()方法对数据进行转换
X_imputed = imputer.fit_transform(X)

print(X_imputed)

在这个例子中，我们使用strategy='median'来指定替换策略为中位数。此外，我们设置了add_indicator=True来创建一个指示器矩阵。运行上述代码，我们可以看到输出结果如下：

[[ 1.  2.  7.  0.  0.]
 [ 3.  5.  4.  1.  0.]
 [ 4.  5.  6.  1.  0.]
 [ 8.  9. 10.  0.  0.]]

在这个结果中，第4和第5列是指示器矩阵，其中1表示对应的值是被填充的。

除了数值型特征，SimpleImputer类还可以处理类别型特征中的缺失值。要处理类别型特征中的缺失值，可以使用strategy='most_frequent'来指定替换策略为众数。

import numpy as np
from sklearn.impute import SimpleImputer

# 示例数据
X = np.array([['red', 'green', np.nan],
              ['blue', np.nan, 'yellow'],
              [np.nan, 'orange', 'purple'],
              ['white', 'black', 'gray']])

# 实例化一个SimpleImputer对象，指定替换策略为众数
imputer = SimpleImputer(strategy='most_frequent')

# 使用fit_transform()方法对数据进行转换
X_imputed = imputer.fit_transform(X)

print(X_imputed)

在这个例子中，我们创建了一个包含类别型特征的示例数据集X。然后，我们使用strategy='most_frequent'来指定替换策略为众数。通过运行上述代码，我们可以看到输出结果如下：

[['red' 'green' 'gray']
 ['blue' 'green' 'yellow']
 ['red' 'orange' 'purple']
 ['white' 'black' 'gray']]

在这个结果中，我们可以看到第三列的缺失值被众数值所替换。

对于特别大的数据集，可以通过使用partial_fit()方法对数据进行逐批次的拟合和转换来减少内存使用。

以上就是如何在Python中使用SimpleImputer类进行数据不完整值处理的例子。希望这个例子对于理解和使用SimpleImputer类有所帮助。