利用Pandas在Python中实现数据分组和聚合分析的方法

发布时间：2024-01-03 22:47:33

Python中的Pandas库提供了一种方便的方式来进行数据分组和聚合分析。数据分组是指按照一个或多个条件将数据进行分类，然后对每个分类进行聚合计算。聚合分析是指对分组后的数据进行一系列的统计计算，如求和、平均值、标准差等。

在Pandas中，数据分组和聚合分析可以通过两个主要的操作来实现：groupby和aggregate。

首先，我们需要导入Pandas库，并创建一个DataFrame对象作为演示数据：

import pandas as pd

data = {'Name': ['John', 'Tom', 'John', 'Bob', 'Tom'],
        'Age': [28, 32, 25, 35, 29],
        'City': ['New York', 'Paris', 'New York', 'London', 'Paris'],
        'Salary': [5000, 6000, 4500, 5500, 6500]}

df = pd.DataFrame(data)

创建了一个包含姓名、年龄、城市和薪水的DataFrame对象。

1. 数据分组

使用groupby操作可以根据某一列或者多列的值来对数据进行分组，然后对每个分组进行聚合分析。下面的例子中，我们对城市这一列进行分组，并计算每个城市的平均薪水：

grouped = df.groupby('City')
average_salary = grouped['Salary'].mean()

这里通过groupby('City')将数据按照城市进行分组，然后获取分组后的薪水列，并使用mean()函数计算平均薪水。

2. 聚合分析

在分组后，可以使用aggregate操作对每个分组进行聚合分析。aggregate可传入一个或多个函数进行聚合计算，如求和、平均值、标准差等。下面的例子中，我们对每个城市进行分组，并计算每个城市的总薪水、平均年龄和最大年龄：

result = grouped.agg({'Salary': 'sum', 'Age': ['mean', 'max']})

这里通过agg()方法，传入一个字典作为参数。字典的键表示要进行聚合分析的列，字典的值表示要进行的聚合操作。

除了内置的聚合函数，还可以使用自定义函数进行聚合分析。下面的例子中，我们计算了薪水的方差：

def var_func(x):
    return x.var()

result = grouped.agg({'Salary': var_func})

这里定义了一个自定义函数var_func(x)，传给agg()方法使用。

以上就是Pandas库中实现数据分组和聚合分析的方法。通过groupby和aggregate操作，可以方便地对数据进行分组、聚合分析和计算自定义的聚合函数。