完善数据集的必备工具——SimpleImputer()函数的介绍

发布时间：2024-01-03 05:26:32

SimpleImputer()是数据预处理中常用的工具，用于处理数据集中的缺失值。缺失值在数据集中十分常见，可能是由于人工采集数据时的遗漏、数据传输过程中的错误或者数据存储过程中的问题所导致。缺失值会对许多机器学习算法的性能产生负面影响，因此在使用数据集进行训练之前，必须处理这些缺失值。

SimpleImputer()函数可以根据一定的策略将缺失值补全。它提供了几种常用的策略来处理缺失值，包括使用均值、中位数、最频繁值来填充缺失值。该函数的基本用法如下：

from sklearn.impute import SimpleImputer

# 实例化SimpleImputer对象
imputer = SimpleImputer(strategy='mean')

# 将缺失值补全
imputed_data = imputer.fit_transform(data)

上述代码中，我们首先导入了SimpleImputer类，然后实例化了一个SimpleImputer对象imputer，并指定了strategy参数为'mean'。这表示我们将使用均值来填充缺失值。最后，我们通过调用fit_transform()方法将缺失值补全，并将补全后的数据保存到imputed_data变量中。

除了'mean'外，SimpleImputer还提供了其他几种策略，包括'median'（中位数）、'most_frequent'（最频繁值）和'constant'（常数）。'constant'策略需要通过fill_value参数指定常数的值。

下面通过一个使用SimpleImputer()函数填充缺失值的例子来具体说明其用法。

import pandas as pd
from sklearn.impute import SimpleImputer

# 创建含有缺失值的数据集
data = {'Age': [23, 34, None, 45, 27],
        'Income': [5000, 7000, None, 6000, 8000]}
df = pd.DataFrame(data)

# 实例化SimpleImputer对象
imputer = SimpleImputer(strategy='mean')

# 将缺失值补全
imputed_data = imputer.fit_transform(df)

# 打印补全后的数据集
print(imputed_data)

在上述代码中，首先我们使用pandas库创建了一个含有缺失值的DataFrame对象df。然后，我们通过SimpleImputer对象imputer使用均值策略来补全缺失值，并将补全后的数据保存到imputed_data变量中。最后，我们打印出补全后的数据集。

以上就是SimpleImputer()函数的介绍及使用例子。通过使用SimpleImputer()函数，我们可以方便地处理数据集中的缺失值，使其适合机器学习算法的训练和预测。