利用Python中的apply()函数进行数据预处理

发布时间：2023-12-26 23:57:35

在Python中，apply()函数是pandas库中的一个函数，它可以应用于pandas的DataFrame和Series对象，用于执行自定义的函数或函数操作，并将其应用于指定的数据集。由于DataFrame和Series对象是pandas库用于处理数据的核心数据结构，apply()函数极为有用，可以帮助我们进行数据预处理。

在数据预处理过程中，apply()函数主要应用于以下两种情况：

1.基于DataFrame的数据预处理：可以对DataFrame中的每个列（Series）进行函数操作，以处理缺失数据、异常值、离群点等无效或异常数据。

2.基于Series的数据预处理：可以对Series对象中的每个元素进行函数操作，以处理缺失数据、异常值、离群点等无效或异常数据。

以下是几个使用apply()函数进行数据预处理的示例：

1.基于DataFrame的数据预处理：

假设我们有一个包含学生姓名、数学成绩和英语成绩的DataFrame，并且想要处理其中的缺失数据。我们可以使用apply()函数应用自定义函数来替换缺失值。代码示例如下：

import pandas as pd
import numpy as np

# 创建DataFrame
data = {'姓名': ['Tom', 'John', 'Mary', 'David'],
        '数学成绩': [80, np.nan, 90, 75],
        '英语成绩': [70, 85, np.nan, 80]}

df = pd.DataFrame(data)

# 自定义函数替换缺失值
def replace_missing_values(x):
    if pd.isnull(x):
        return 0
    else:
        return x

# 应用自定义函数
df['数学成绩'] = df['数学成绩'].apply(replace_missing_values)
df['英语成绩'] = df['英语成绩'].apply(replace_missing_values)

print(df)

输出结果：

     姓名  数学成绩  英语成绩
0   Tom  80.0  70.0
1  John   0.0  85.0
2  Mary  90.0   0.0
3  David  75.0  80.0

上述代码中，我们定义了一个自定义函数replace_missing_values()，当遇到缺失值时，返回0；否则返回原始值。然后使用apply()函数将这个自定义函数应用于DataFrame的每一列（Series）。

2.基于Series的数据预处理：

假设我们有一个包含学生姓名和体重的Series对象，我们想要将体重转换为千克并处理异常值（大于100或小于30的值）。我们可以使用apply()函数应用自定义函数来处理每个元素。代码示例如下：

import pandas as pd

# 创建Series
data = {'Tom': 150, 'John': 75, 'Mary': 200, 'David': 60}
s = pd.Series(data, name='体重')

# 自定义函数处理异常值
def process_weight(x):
    if x > 100:
        return x / 1000
    elif x < 30:
        return 30
    else:
        return x

# 应用自定义函数
s = s.apply(process_weight)

print(s)

输出结果：

Tom      0.150
John     0.075
Mary     0.200
David    0.060
Name: 体重, dtype: float64

上述代码中，我们定义了一个自定义函数process_weight()，当体重大于100时，将其转换为千克，当体重小于30时，将其设置为30千克；否则保持不变。然后使用apply()函数将这个自定义函数应用于Series的每个元素。

总结：

apply()函数是pandas库中非常有用的函数，可以帮助我们进行数据预处理。通过定义自定义函数，并使用apply()函数将其应用于DataFrame或Series对象的每个元素，我们可以实现对数据集中的缺失值、异常值、离群点等进行处理和转换。这一功能对于数据预处理非常重要，有助于我们确保数据质量和准确性。