了解sklearn.imputeSimpleImputer()的填充策略和参数设置

发布时间：2024-01-18 23:51:27

sklearn.impute中的SimpleImputer类是一种用于填充缺失值的简单方法。它提供了几种填充策略，包括用平均值、中位数、最频繁值或者常数填充缺失值。本文将介绍SimpleImputer的填充策略和参数设置，并提供一个使用SimpleImputer填充缺失值的例子。

首先，让我们看一下SimpleImputer的填充策略和参数设置。

填充策略：

1. "mean"（默认）：用特征的平均值填充缺失值。

2. "median"：用特征的中位数填充缺失值。

3. "most_frequent"：用特征的最频繁值填充缺失值。

4. "constant"：用给定的常数值填充缺失值。

参数设置：

1. missing_values：指定缺失值的标记，默认为np.nan。

2. strategy：指定填充策略，默认为"mean"。

3. fill_value：当策略为"constant"时，用于填充缺失值的常数值。

4. verbose：控制详细输出信息的冗余度，默认为0。

接下来，让我们通过一个例子来演示SimpleImputer的用法。

import numpy as np
from sklearn.impute import SimpleImputer

# 创建一个包含缺失值的数据集
X = np.array([[1, 2, np.nan],
              [3, np.nan, 4],
              [np.nan, 5, 6],
              [7, 8, 9]])

# 创建一个SimpleImputer实例，使用"mean"策略
imputer = SimpleImputer(strategy='mean')

# 使用imputer对数据进行拟合和填充
imputer.fit(X)

# 打印填充后的数据
print(imputer.transform(X))

上述代码中，我们创建了一个包含缺失值的数据集X，其中使用np.nan表示缺失值。接下来，我们创建了一个SimpleImputer实例，并使用"mean"策略实例化。然后，我们使用fit()方法对数据进行拟合和填充，transform()方法用于填充缺失值并返回填充后的数据。最后，我们打印出填充后的数据。

输出结果如下所示：

[[1.   2.   6.25]
 [3.   5.   4.  ]
 [3.66666667 5.  6.  ]
 [7.   8.   9.  ]]

可以看到，缺失值被填充为对应特征的平均值。如果我们使用其他策略，如"median"或"most_frequent"，结果将分别填充为中位数或最频繁值。如果我们指定"constant"策略，并设置fill_value参数，将使用指定的常数填充缺失值。

综上所述，sklearn.impute.SimpleImputer类提供了一种简单易用的方法来填充缺失值。通过选择适当的填充策略和参数设置，我们可以根据数据的特点和需求来进行灵活的填充操作。