如何创建生成器函数及其应用场景

发布时间：2023-06-02 13:19:50

生成器函数是一种特殊类型的Python函数，它不是传统的函数，而是生成一个迭代器。生成器函数在Python中有很多应用场景，比如生成大量数据、处理大型数据集、迭代和过滤数据等。

创建生成器函数

用def关键字定义生成器函数，其函数体内包含yield语句。yield是yield表达式的实现者，每次执行yield语句会暂停函数的执行，并返回一个值给调用者。下次调用时，函数会从上一个yield语句开始执行，直到遇到下一个yield语句。

例如，下面的代码展示了一个生成器函数simple_generator的定义和用法：

def simple_generator():
    yield 1
    yield 2
    yield 3

gen = simple_generator()

for i in gen:
    print(i)

输出结果为：

1
2
3

当调用simple_generator()时，生成器会返回一个迭代器对象，它可以迭代生成器函数内的yield值。因此，使用以上代码可实现迭代输出值的功能。

应用场景

生成大量数据

生成器函数可以动态生成大量的数据，而不需要一次性地生成所有数据。这在一些需要大量数据生成的场景下可以节省内存资源并缩短时间，如：

def get_data(count):
    for i in range(count):
        yield i**2

data = get_data(1000000)

for d in data:
    print(d)

输出结果为：

0
1
4
9
16
...
999993000009
999996000004
999999000001

在这个例子中，用生成器函数来创建了一个包含1000000个数字平方计算的序列。如果使用传统方法将这些计算结果保存在一个列表中，需要占用大量的内存，并在计算完之前等待很长时间。而使用生成器函数，则可以逐个计算，一边计算一边输出，有效地节约了内存和时间。

处理大型数据集

生成器函数还可以用来处理大型数据集，避免将所有数据加载到内存中造成内存不足或运行缓慢。例如，假设我们有一个巨大的文本文件，我们要将其中所有大于20个字符的行进行处理，我们可以用以下代码来实现：

def process_file(file_path):
    with open(file_path) as f:
        for line in f:
            if len(line) > 20:
                yield line

for line in process_file('big_file.txt'):
    # do something with the line
    pass

在这个例子中，用生成器函数来逐行处理文本文件。这种方法只会从文件中读取一行，并只需要保存正在处理的一行内容，因此可以处理非常大的文件，而不必担心内存不足或性能问题。

迭代和过滤数据

Python中的多个内置函数，如map()、filter()和sorted()等，都可以接受可迭代的序列作为输入，以便进行迭代、过滤和排序等操作。因此，生成器函数也可以用来生成可迭代的序列，以方便地与这些函数一起使用。

例如，假设我们有一个列表，我们要找到其中所有大于10的偶数，并按降序排序，我们可以用以下代码来实现：

def get_numbers(l):
    for i in l:
        if i % 2 == 0 and i > 10:
            yield i
            
numbers = [18, 15, 9, 11, 12, 17, 14, 8, 20]
result = sorted(get_numbers(numbers), reverse=True)
print(result)

输出结果为：

[20, 18, 14, 12]

在这个例子中，用生成器函数来筛选出大于10的偶数，并将结果传递给sorted函数进行排序。与这种方法相比，传统的列表筛选和排序方法需要使用更多的代码，并且可能会占用大量的内存。

总结

生成器函数是Python中的一个重要功能，它不仅提高了程序的性能，而且提供了一种简单和灵活的方法来处理大量的数据和文本文件等。在实际应用中，我们可以根据具体的问题，选择合适的生成器函数，以实现更高效和优雅的代码。