如何用Python编写生成器表达式函数？

发布时间：2023-06-18 21:39:30

生成器表达式是一种可迭代对象，在Python中用于表示一系列值。相比于列表推导式，生成器表达式更加高效，因为它不会一次性生成所有的值，而是在需要时逐个生成。

在Python中，生成器表达式通常使用圆括号来包裹起来，和列表推导式的方括号有所不同。生成器表达式的基本语法格式如下：

(expr for item in iterable if condition)

其中，expr是一个表达式，item是iterable迭代对象中的每个元素，condition是可选的条件语句。

下面是一个简单的例子，演示如何使用生成器表达式从一个列表中生成一个新的列表，其中仅包含大于等于0的数：

lst = [-1, 2, -3, 4, -5, 6]
new_lst = [x for x in lst if x >= 0]  # 使用列表推导式生成新列表
print(new_lst)
# [2, 4, 6]

gen_exp = (x for x in lst if x >= 0)  # 使用生成器表达式生成可迭代对象
print(list(gen_exp))
# [2, 4, 6]

注意，使用生成器表达式生成的可迭代对象只能被遍历一次，如果需要多次遍历，需要重新生成一个新的生成器表达式。

下面我们来看一个具体的例子，演示如何编写一个生成器表达式函数。

假设有一个目录，里面包含了很多文本文件，我们需要读取这些文件中的内容，并统计其中某个单词的出现次数。为了提高运行效率，我们可以使用生成器表达式函数来逐个读取文件中的每一行，然后在每一行中查找目标单词。

具体实现思路如下：

1. 定义一个生成器表达式函数，接收一个目录路径和目标单词作为参数；

2. 使用os模块遍历目录下的所有文本文件；

3. 对于每个文件，逐个读取每一行；

4. 在每一行中查找目标单词，如果找到了，则将该行文本作为生成器表达式的返回值；

5. 如果整个文件中都没有找到目标单词，则返回空字符串；

6. 循环遍历所有文件，直到所有文件都被读取完毕。

下面是一个具体的实现代码：

import os

def search_word(dir_path, target_word):
    for root, dirs, files in os.walk(dir_path):
        for filename in files:
            if filename.endswith('.txt'):  # 限定仅处理txt文件
                filepath = os.path.join(root, filename)
                with open(filepath, 'r') as f:
                    for line in f:
                        if target_word in line:
                            yield line.strip()
                        else:
                            yield ''

# 使用生成器表达式函数逐个输出所有包含"hello"的行
for line in search_word('path/to/dir', 'hello'):
    print(line)

在上面的代码中，我们使用了yield语句来生成生成器表达式的返回值，这样我们就可以逐个输出符合条件的行了。

需要注意的是，如果一个文件中包含多个符合条件的行，那么该文件会生成多个返回值，每个返回值都对应一个符合条件的行。当所有文件都被读取完毕后，使用生成器表达式的语法来遍历返回值即可。