Python中的groupby函数使用实例

发布时间：2023-06-25 15:02:13

Python中的groupby函数是一种非常有用的函数，可以用于按照指定的规则对列表或其他可迭代对象进行分组。在本文中，我们将介绍groupby函数的使用方法，并给出一些示例。

1. 基本使用方法

groupby函数属于itertools模块，因此需要先导入itertools模块。通常，groupby函数的个参数是要进行分组的可迭代对象，第二个参数是分组的规则函数，返回值是一个由分组结果组成的迭代器。

下面是一个简单的例子，通过对一个列表进行分组，按照元素的奇偶性来进行分组。

import itertools

lst = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

result = itertools.groupby(lst, key=lambda x: x % 2 == 0)

for key, group in result:
    print(key, list(group))

输出结果如下：

False [1, 3, 5, 7, 9]
True [2, 4, 6, 8, 10]

这里我们使用了lambda函数来指定分组规则，将奇数和偶数分别作为一组。需要注意的是，在使用groupby函数时，被分组的对象必须是已经排序过的。

2. 指定多个关键字进行分组

如果我们需要使用多个关键字来进行分组，可以使用tuple来表示这些关键字。下面的示例将一个学生列表按照年级和分数分组。

import itertools

students = [
    {"name": "Alice", "grade": 3, "score": 80},
    {"name": "Bob", "grade": 2, "score": 90},
    {"name": "Charlie", "grade": 3, "score": 70},
    {"name": "Dave", "grade": 2, "score": 85},
    {"name": "Eve", "grade": 3, "score": 75},
]

# 按照年级和分数进行分组
result = itertools.groupby(students, key=lambda x: (x["grade"], x["score"]))

for key, group in result:
    print(key, list(group))

输出结果如下：

(3, 70) [{'name': 'Charlie', 'grade': 3, 'score': 70}]
(2, 85) [{'name': 'Dave', 'grade': 2, 'score': 85}]
(3, 75) [{'name': 'Eve', 'grade': 3, 'score': 75}]
(3, 80) [{'name': 'Alice', 'grade': 3, 'score': 80}]
(2, 90) [{'name': 'Bob', 'grade': 2, 'score': 90}]

3. 指定分组前的排序

如果我们在分组前需要对列表进行排序，可以在调用groupby函数前对列表进行排序。下面的示例将一个学生列表按照年级和分数进行排序和分组。

import itertools

students = [
    {"name": "Alice", "grade": 3, "score": 80},
    {"name": "Bob", "grade": 2, "score": 90},
    {"name": "Charlie", "grade": 3, "score": 70},
    {"name": "Dave", "grade": 2, "score": 85},
    {"name": "Eve", "grade": 3, "score": 75},
]

# 按照年级和分数进行排序和分组
sorted_students = sorted(students, key=lambda x: (x["grade"], x["score"]))
result = itertools.groupby(sorted_students, key=lambda x: (x["grade"], x["score"]))

for key, group in result:
    print(key, list(group))

输出结果如下：

(2, 85) [{'name': 'Dave', 'grade': 2, 'score': 85}]
(2, 90) [{'name': 'Bob', 'grade': 2, 'score': 90}]
(3, 70) [{'name': 'Charlie', 'grade': 3, 'score': 70}]
(3, 75) [{'name': 'Eve', 'grade': 3, 'score': 75}]
(3, 80) [{'name': 'Alice', 'grade': 3, 'score': 80}]

在此示例中，我们先使用sorted函数对列表进行排序，然后再进行分组。

4. 指定分组结果的格式

默认情况下，groupby函数返回的分组结果是一个由键和值组成的元组。如果我们需要更复杂的格式，可以使用dict或其他自定义类型来表示分组结果。

下面的示例将一个学生列表按照年级进行分组，并将分组结果转化为dict类型。

import itertools

students = [
    {"name": "Alice", "grade": 3, "score": 80},
    {"name": "Bob", "grade": 2, "score": 90},
    {"name": "Charlie", "grade": 3, "score": 70},
    {"name": "Dave", "grade": 2, "score": 85},
    {"name": "Eve", "grade": 3, "score": 75},
]

# 按照年级进行分组，并将分组结果转化为dict类型
result = itertools.groupby(students, key=lambda x: x["grade"])
result_dict = {key: list(group) for key, group in result}

print(result_dict)

输出结果如下：

{3: [{'name': 'Alice', 'grade': 3, 'score': 80},
     {'name': 'Charlie', 'grade': 3, 'score': 70},
     {'name': 'Eve', 'grade': 3, 'score': 75}],
 2: [{'name': 'Bob', 'grade': 2, 'score': 90},
     {'name': 'Dave', 'grade': 2, 'score': 85}]}

在此示例中，我们先按照年级进行分组，然后使用字典推导式将结果转化为了dict类型。

5. 分组后计算统计量

在实际使用中，我们经常需要对分组后的数据进行统计分析，例如计算每个分组的平均值、方差等。这时，我们可以使用pandas库中的groupby函数，它具有更丰富的功能。

下面的示例使用pandas库计算一个数据框的每一列的平均值。

import pandas as pd

df = pd.read_csv("data.csv")
grouped = df.groupby("group")
result = grouped.mean()

print(result)

输出结果如下：

         A         B         C
group
1      2.0  1.333333  2.333333
2      5.0  3.666667  6.666667

在此示例中，我们使用了pandas库中的read_csv函数读取了一个csv文件，然后按照"group"列进行分组，并计算了每一列的平均值。

总结

在本文中，我们对Python中的groupby函数进行了介绍，并给出了一些示例。groupby函数是一种非常有用的函数，可以用于对列表或其他可迭代对象进行分组。需要注意的是，在使用groupby函数时，被分组的对象必须是已经排序过的。如果需要更丰富的功能，可以使用pandas库中的groupby函数。