findall()函数快速匹配字符串中所有符合条件的子串？

发布时间：2023-06-21 16:17:09

Python的re模块中的findall()函数能够在一个字符串中快速匹配所有符合特定模式的子串，从而大大提高了字符串处理和文本分析的效率。它的功能特点如下：

1. 返回一个列表，包含所有能够匹配的子串。

2. 支持正则表达式匹配，因此可以按照指定的模式匹配子串。

3. 支持匹配多个子串，即可以匹配含有多个重复子串的字符串。

4. 在匹配的时候，可以选择性地只返回匹配的子组部分。

5. 支持快速匹配大量的字符串，因为其内部的实现使用了高效的正则表达式引擎。

因此，findall()函数通常用于以下几种情况：

1. 在一段文本中查找所有特定模式的字符串，并将其转化为一个列表。

2. 从一段HTML或XML文本中提取数据。

3. 对一组文件名进行批量处理，并筛选出指定扩展名的文件。

4. 将长文本切分成多个段落，并进行格式化处理。

下面我们就来看一下findall()函数的一些常见用法。

基本用法

以正则表达式isdigit的使用为例，说明findall()函数的基本用法：

import re

s = '123abc45def6'
res = re.findall('\d+', s)
print(res)

运行上面的代码，我们会将其中的数字字符都匹配出来，输出结果为['123', '45', '6']。

在这个例子中，我们首先导入了Python中的re库，然后使用re.findall()函数查询符合正则表达式\d+的字符串。其中，\d表示匹配任何数字字符，+表示匹配这些数字字符的一个或多个实例。因此，得到的输出是所有数字字符组成的一个列表。

从输出中可以看出，在这个例子中，findall()返回了列表['123', '45', '6']，其中每一项都是一个包含匹配子串的字符串。

使用参数

findall()函数支持不同的参数，帮助我们更加灵活地进行查询。具体而言，它支持以下三个参数：

1. pattern：指定搜索用的正则表达式

2. string：要被搜寻的字符串

3. flags：指定正则表达式的标志

举个例子，如下：

import re

mystr = 'The quick brown fox jumps over the lazy dog'
res = re.findall('q\w+', mystr, re.IGNORECASE)
print(res)

上面的代码展示了findall()函数的全部参数。在这个例子中，我们首先指定了一个字符串mystr。因为我们希望找到所有以字母“q”开头的单词，所以接下来我们就使用正则表达式“q\w+”来进行查找。

其中，“\w+”表示匹配一个或多个字母、数字或下划线字符。为了确保“q”在单词开头，我们在它前面添加了字母“q”。

最后，我们加入了一个额外的参数re.IGNORECASE，它表示查询时忽略大小写。因此，我们能够得到以下输出：['quick', 'brown', 'fox']。

Tips：flags参数可以接受多个标志参数，例如re.MULTILINE和re.IGNORECASE等等，这些标志参数可以用位运算来组合起来。

使用子组

除了简单模式的匹配之外，findall()函数还支持子组(match groups)捕获功能，可以在正则表达式中使用括号将匹配的部分包装起来，从而将其提取出来。

例如在下面的例子中，我们希望查找一个以“@”符号开头的电子邮件地址：

import re

s = "Please contact me at name@example.com"
res = re.findall(r'(\w+@\S+)', s)
print(res)

在这个例子中，我们首先使用正则表达式“\w+@\S+”来进行查找。其中，“\w+”表示任意单词组成的邮箱前缀，“\S+”则表示一串不以空格符开头的字符（即邮箱后缀）。

正则表达式中括号内的子段被捕获并作为输出的元组中的项呈现。在这个特定的例子中，结果只有一个元组，对应于匹配的电子邮件地址。

多重捕获，例如在下面的示例中，找到所有以“@”符号开头的电子邮件地址，并将其分成用户和主机两部分：

import re

s = "Please contact us at name@example.com or support@example.net"
res = re.findall(r'(\w+)@(\S+)', s)
print(res)

在这个例子中，我们可以使用两对括号将正则表达式进一步改进，分别捕获邮件地址的用户名和主机名。以这种方式匹配多个子串时，findall()将返回一个数组，其中每个元素都是一个元组，包含正则表达式中包含的组的所有捕获匹配。

输出的结果是：

[('name', 'example.com'), ('support', 'example.net')]

上述两个例子展示了findall()函数中捕获和输出子组的方式和用法。

匹配多行字符串

在处理文本文件时，难免会遇到文件内容跨越若干行的情况。这个时候，我们可以通过使用dotall标志（re.S）来匹配多行。

下面的例子展示了如何查找HTML页面中所有的标题标签:

import re

mystr = '''<html>
<head>
<title>Page Title</title>
</head>
<body>
<h1>This is a Heading</h1>
<p>This is a paragraph.</p>
</body>
</html>'''

res = re.findall('<h1>(.*?)</h1>', mystr, re.S)
print(res)

在这个例子中，我们使用了标记re.S，指示正则表达式可以与跨越多个行的字符串匹配。

输出的结果是：['This is a Heading']

自定义findall

findall()函数的默认语法是非常简单的，但是在某些情况下，我们需要自定义findall。那么该怎样自定义呢？

一个简单的方法是捕捉默认的$0框架，在其中插入匹配对象。这样，我们依然可以使用Python的re.finditer()函数，但必须为其指定一个回调函数。

下面的代码展示了一个自定义的findall函数实现：

import re

def myfindall(pattern, string, flags=0):
    results = []
    for m in re.finditer(pattern, string, flags):
        results.append(m.group(0))
    return results

s = 'You can find the recipe at https://www.example.com/recipe/'
res = myfindall(r'https?://\S+', s)
print(res)

从以上代码中，我们可以看到，在自定义findall()函数时，我们可以通过循环遍历匹配对象并分别提取每个匹配结果，并将其添加到一个包含所有结果的数组中。

findall()函数的优缺点

除了finditer()和search()函数之外，findall()函数是re模块中最常用的函数之一。它能够将所有匹配项返回为一个列表，使得我们可以快速、简单且安全地处理大量复杂的输入数据。

然而，findall()函数也有一些潜在的缺