如何使用pandas.DataFrame进行数据分组和聚合

发布时间：2023-12-17 14:53:16

Pandas是一个强大且灵活的数据分析库，它提供了丰富的功能来处理和分析数据集。其中一个重要的功能是数据的分组和聚合。本文将介绍如何使用Pandas的DataFrame进行数据分组和聚合，并提供相应的示例。

首先，我们需要导入Pandas库：

import pandas as pd

接下来，我们创建一个简单的数据集来进行演示。假设我们有一个包含学生姓名、成绩和科目的数据集：

data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob', 'Charlie'],
    'Subject': ['Math', 'Math', 'Math', 'Science', 'Science', 'Science'],
    'Score': [80, 70, 90, 85, 75, 95]
}

df = pd.DataFrame(data)

数据集包含6个学生的信息，每个学生有对应的科目和成绩。

在进行数据分组和聚合之前，我们可以先查看整个数据集的内容：

print(df)

输出结果如下：

      Name  Subject  Score
0    Alice     Math     80
1      Bob     Math     70
2  Charlie     Math     90
3    Alice  Science     85
4      Bob  Science     75
5  Charlie  Science     95

接下来，我们可以使用groupby()方法对数据进行分组。我们可以根据学生姓名对数据进行分组，代码如下：

grouped = df.groupby('Name')

上述代码将根据学生姓名对数据集进行分组。

接下来，我们可以对分组后的数据进行聚合操作。Pandas提供了很多聚合函数，比如计算平均值、总和等。我们将使用mean()函数计算每个学生的平均成绩：

aggregated = grouped.mean()

上述代码将对每个学生的成绩进行平均值计算。

我们也可以一次性使用多个聚合函数进行计算。比如，我们可以计算每个学生的平均成绩和总分数：

aggregated = grouped.agg({'Score': ['mean', 'sum']})

上述代码将对每个学生的成绩同时计算平均值和总和。

最后，我们可以查看聚合后的结果：

print(aggregated)

输出结果如下：

           Score    
            mean  sum
Name                 
Alice  82.500000  165
Bob    72.500000  145
Charlie 92.500000  185

上述结果显示了每个学生的平均成绩和总分数。

除了使用单个列进行分组之外，我们还可以使用多个列进行分组。比如，我们可以根据学生姓名和科目对数据进行分组：

grouped = df.groupby(['Name', 'Subject'])

上述代码将根据学生姓名和科目对数据集进行分组。

接下来，我们可以继续使用聚合函数对分组后的数据进行计算。比如，我们可以计算每个学生在每个科目上的平均成绩和总分数：

aggregated = grouped.agg({'Score': ['mean', 'sum']})

最后，我们可以查看聚合后的结果：

print(aggregated)

输出结果如下：

                 Score    
                  mean  sum
Name    Subject            
Alice   Math     80.0   80
        Science  85.0   85
Bob     Math     70.0   70
        Science  75.0   75
Charlie Math     90.0   90
        Science  95.0   95

上述结果显示了每个学生在每个科目上的平均成绩和总分数。

总之，使用Pandas的DataFrame进行数据分组和聚合非常简单。我们可以使用groupby()方法对数据进行分组，然后使用聚合函数对分组后的数据进行计算。最后，可以查看聚合后的结果。这样，我们可以很方便地对数据进行分析和处理。