生成器函数：掌握Python中的生成器函数的实现方法和应用场景

发布时间：2023-06-18 17:59:43

生成器函数是Python中一个重要的概念，利用其可以使代码更加简洁、高效和可读性更好。简单来说，生成器函数用于惰性计算和迭代，其可以一次性产生一个及其值的序列，提高了代码的性能和可维护性。本文将为大家详细介绍生成器函数及其应用场景。

一、什么是生成器函数？

生成器函数可以理解为一个特殊的函数，它具有产生惰性序列的能力。惰性序列指的是在需要使用的时候才会被生成，而不是一开始就生成并存放在内存当中。对于大数据量的处理，这种方式可以节省内存空间，提高程序的性能。

具体来说，生成器函数可以定义为这样一个函数：在函数中使用yield关键字来产生下一个可供迭代的值。当函数被调用时，它不会像普通函数那样直接返回结果，而是返回一个生成器对象。通过对该对象进行迭代，我们可以逐一获取生成器函数中产生的值，直到函数返回值或者抛出异常。

下面是一个简单的例子：

def generate_num():
    print('start generating')
    yield 1
    print('continue generating')
    yield 2
    print('stop generating')
    
gen = generate_num()  # 这里 gen 是生成器对象
print(next(gen))  # 输出 1
print(next(gen))  # 输出 2

这个例子中，我们定义了一个生成器函数generate_num()，其中使用yield关键字来产生下一个值。在函数中，我们先输出了start generating，然后使用yield产生了1。接着输出continue generating，并使用yield产生了2。最后输出stop generating。

当我们使用next()函数迭代生成器对象时，函数会从上次中断的地方开始继续执行。因此，次迭代时，函数会从开始处开始执行，输出start generating，然后产生1，return None。第二次迭代时，函数从yield 1的下一行继续执行，输出continue generating，产生2，return None。因为在函数内部没有其他可执行的语句了，所以迭代结束，函数返回值为None。

二、生成器函数的应用场景

1. 大数据量的处理

生成器函数可以提高程序的性能，尤其是在处理大数据量时，可以节省大量的内存空间。这是因为生成器函数不会一次性把所有的值都产生出来，而是按需惰性生成。例如，如果要对一个大的文本文件进行处理，我们可以使用生成器函数一行一行地读取，而不是先全部读到内存当中，避免因为内存不足而出现异常。

def read_file(filename):
    with open(filename, 'r') as f:
        for line in f:
            yield line.strip().split(',')
            
for record in read_file('data.csv'):
    print(record)

这个例子中，read_file()函数使用yield语句，读取一个CSV格式的文件，并逐行产生文件中的数据。在主程序中，我们可以使用一个循环语句，每次读取一行，并处理。

2. 无限数列

生成器函数还可以用来产生一个无限的数列。例如可以产生一个逐渐增大的斐波那契数列，直至达到某个边界或者无限循环。这种方法可以帮助我们生成一个具备特定性质的序列。

def fibonacci():
    a, b = 0, 1
    while True:
        yield a
        a, b = b, a+b
        
for i, f in enumerate(fibonacci()):
    if i >= 10:
        break
    print(f)

这个例子中，我们使用while True循环，从 0 和 1 开始不断计算斐波那契数列的下一项，并用yield产生该项。在主程序中，我们可以使用一个循环语句，每次获取一项并处理它。这个无限的序列可以方便地被打破，我们可以使用一个break语句控制它的长度或者边界。

3. 迭代器链

生成器函数还可以用来构建迭代器链。迭代器链指的是将多个迭代器拼接在一起，形成一个大的迭代器。这种方法可以将不同的数据源进行组合，处理复杂的数据结构。

def itertasks(taskslist):
    for task in taskslist:
        if isinstance(task, list):
            yield from itertasks(task)
        else:
            yield task
            
tasks = ['a', ['b', ['c', 'd'], 'e'], 'f']
for task in itertasks(tasks):
    print(task)

这个例子中，我们定义了一个itertasks()函数，它接受一个任务列表做参数。如果列表中的元素是一个子列表，则使用yield from语句递归调用itertasks()函数。如果列表中的元素是一个简单的任务，则使用yield语句产生它。在主程序中，我们使用for循环语句获取itertasks()函数产生的所有任务，并逐一处理。

三、总结

生成器函数是Python中一个非常实用的概念，可以在处理大数据量、构建无限序列和迭代器链时提高代码的性能和可读性。虽然生成器函数的语法和普通函数很相似，但是它们的行为完全不同。普通函数的执行顺序是从头到尾从上到下，执行完所有语句后返回结果；而生成器函数产生的是一个生成器对象，其行为是惰性的，只有在需要使用时才会执行相应代码，直到遇到yield或者函数结束。所以，生成器函数具备记忆状态、支持惰性计算和可迭代性等特点。在实际编程中，我们可以使用生成器函数来优化我们的代码，提升程序的性能和可维护性。