如何使用Python中的apply()函数应用函数到数据框中

发布时间：2023-06-26 07:43:58

Python语言在数据处理方面提供了大量的功能，其中之一就是数据框（DataFrame），这在进行数据分析和数据可视化时非常有用。Python的pandas库是一个非常常用的数据处理库之一，它提供了DataFrame类。apply()函数是其中一个非常有用的函数，它可以让我们在数据框中应用自定义函数，使用它可以非常方便地将特定的操作应用到整个DataFrame中的所有元素或者各个列、行上。本文将介绍apply()函数的基本用法以及一些高级应用。

一. apply()函数

首先看一下apply()函数的用法：

DataFrame.apply(func, axis=0, broadcast=None, raw=False, reduce=None, result_type=None, args=(), **kwds)

其中，func是我们要应用的函数，也可以是lambda表达式，axis是轴方向，axis=0表示对每一列进行操作，axis=1表示对每一行进行操作。

例如我们有以下数据框：

import pandas as pd

df = pd.DataFrame({'a':[1,2,3],'b':[4,5,6],'c':[7,8,9]})

print(df)

a b c

0 1 4 7

1 2 5 8

2 3 6 9

如果要对每一行进行操作，比如求和，我们可以这么做：

df.apply(lambda x: x.sum(), axis=1)

0 12

1 15

2 18

dtype: int64

这一步操作将对于每一行分别进行求和操作，返回的结果将组成一个Series。

注意：在apply中我们可以使用lambda表达式来定义函数，也可以使用自定义函数，这取决于我们的需求以及需要执行的操作。

二. 高级应用

除了基本的应用方式外，apply()函数还有一些高级应用方法可以让你更加灵活地应用它，这些方法包括：

1. 结合groupby使用

在数据分析中，经常会使用groupby来对数据进行分组，然后可以在分组后应用apply()函数。例如，我们有以下数据框：

import pandas as pd

df = pd.DataFrame({'name':['John','Bob','Alex','John','Bob'],

'age':[18,29,26,18,29],

'score':[90,66,78,45,81]})

print(df)

name age score

0 John 18 90

1 Bob 29 66

2 Alex 26 78

3 John 18 45

4 Bob 29 81

如果我们想求每个人的平均分，可以这么做：

df.groupby('name').apply(lambda x: x['score'].mean())

name

Alex 78.0

Bob 73.5

John 67.5

dtype: float64

这一步操作先按照name进行了划分，然后对于每一组执行lambda表达式，将每个人的平均分求出。

2. 结合map()方法使用

在应用apply()函数时，有时候需要传递一些参数，我们可以使用map()方法来传递这些参数。例如，我们要对数据框的每一列进行归一化处理，我们可以这么做：

import pandas as pd

df = pd.DataFrame({'a':[1,2,3],'b':[4,5,6],'c':[7,8,9]})

max_val = df.apply(lambda x: x.max())

min_val = df.apply(lambda x: x.min())

normalized = df.apply(lambda x: (x - min_val)/ (max_val - min_val))

print(normalized)

a b c

0 0.0 0.0 0.0

1 0.5 0.5 0.5

2 1.0 1.0 1.0

这一步操作中，我们首先运用apply()函数分别计算每一列的最大值和最小值，然后使用map()方法将这些最大最小值应用到所有的数据中，将每个元素进行归一化处理。

3. 对于特定列应用自定义函数

有时候，我们需要在数据框的某些列上使用自定义函数，我们可以使用apply()函数的另一种形式：applymap()。例如，我们想要将前两列的数据乘以2，我们可以这么做：

import pandas as pd

df = pd.DataFrame({'a':[1,2,3],'b':[4,5,6],'c':[7,8,9]})

df[['a','b']] = df[['a','b']].applymap(lambda x: 2 * x)

print(df)

a b c

0 2 8 7

1 4 10 8

2 6 12 9

这一步操作使用applymap()函数将自定义函数应用在数据框的前两列上。

4. 结合Numpy数组使用

除了apply()函数的内置方法外，我们还可以使用Numpy数组中的函数对数据进行操作。例如，如果我们想要对数据框中的每个元素都取正弦值，我们可以这么做：

import pandas as pd

import numpy as np

df = pd.DataFrame({'a':[1,2,3],'b':[4,5,6],'c':[7,8,9]})

df.apply(np.sin)

a b c

0 0.841471 -0.756802 0.656987

1 0.909297 -0.958924 0.989358

2 0.141120 -0.279415 0.412118

这一步操作使用Numpy中的sin()函数将数据框中的每个元素都取正弦值。

结语

在Python中使用apply()函数可以非常方便地对数据框中的元素进行操作。无论是对于每一行、每一列进行操作，还是应用自定义函数、结合map()方法，它都非常灵活。如果你在处理数据分析或机器学习时遇到了某些问题，可以尝试使用apply()函数来解决。