findall()函数：实现对文本进行正则表达式匹配

发布时间：2023-06-20 19:05:53

在Python中，正则表达式是一种强大的工具，在处理文本信息时非常常用。如果你需要查询一个字符串是否符合一定的模式，或者查找一个字符串中与某个模式匹配的子字符串，那么正则表达式就能够帮助你解决这个问题。findall()函数就是Python在处理正则表达式的时候用到的一个函数。

findall函数的基本语法为：

re.findall(pattern, string, flags=0)

其中，pattern是被匹配的正则表达式，string是需要搜索的字符串，flags是可选参数，用于指定正则表达式的匹配模式。

findall函数的返回值是一个列表，包含了所有与正则表达式匹配的子字符串。如果没有匹配的子符串，则返回一个空列表。

下面我们将逐一介绍findall函数的各个参数，包括pattern、string和flags，以及函数的常见用法。

1. pattern参数

pattern参数指定需要匹配的正则表达式。

在正则表达式中，每个字符都有特定的含义。下面是一些常见的正则表达式元字符及其含义：

（1）. （点号）表示匹配任意一个字符。

（2）^ 表示开头位置。

（3）$ 表示结尾位置。

（4）* 表示匹配前一个字符零次或多次。

（5）+ 表示匹配前一个字符一次或多次。

（6）? 表示匹配前一个字符零次或一次。

（7）\d 表示匹配任意一个数字。

（8）\D 表示匹配任意一个非数字。

（9）\s 表示匹配任意一个空格字符。

（10）\S 表示匹配任意一个非空格字符。

（11）\w 表示匹配任意一个字母、数字或下划线。

（12）\W 表示匹配任意一个非字母、数字或下划线。

（13）[] 匹配方括号中的任意一个字符。

（14）\ 表示转义字符。

例如，如果你想查找一个字符串中所有的数字，那么可以使用如下正则表达式：

pattern = "\d+"

这里的 \d+ 表示匹配一个或多个数字。如果你想查找字符串中所有的字母，那么可以使用如下正则表达式：

pattern = "[a-zA-Z]+"

这里的 [a-zA-Z]+ 表示匹配一个或多个字母。如果你想匹配一个以数字结尾的字符串，那么可以使用如下正则表达式：

pattern = "\d$"

这里的 \d$ 表示匹配以数字结尾的字符串。如果你想匹配一个以字母开头的字符串，那么可以使用如下正则表达式：

pattern = "^[a-zA-Z]"

这里的 ^[a-zA-Z] 表示匹配以字母开头的字符串。如果你想查找字符串中所有的空格字符，那么可以使用如下正则表达式：

pattern = "\s+"

这里的 \s+ 表示匹配一个或多个空格字符。如果你想查找字符串中所有的非空格字符，那么可以使用如下正则表达式：

pattern = "\S+"

这里的 \S+ 表示匹配一个或多个非空格字符。如果你想查找字符串中所有的非数字字符，那么可以使用如下正则表达式：

pattern = "\D+"

这里的 \D+ 表示匹配一个或多个非数字字符。

2. string参数

string参数指定需要搜索的字符串。

这个参数可以是任何字符串，包括从文件中读取的字符串、从网络中获取的字符串等等。

3. flags参数

flags参数用于指定正则表达式的匹配模式。

flags参数的取值可以包括如下几种：

（1）re.IGNORECASE 或 re.I：表示不区分大小写。

（2）re.MULTILINE 或 re.M：表示多行模式，即 ^ 和 $ 表示以下一行的开头和结尾，而不是整个字符串的开头和结尾。

（3）re.DOTALL 或 re.S：表示 . 匹配包括换行在内的任意字符。

如果需要按照多个模式搜索字符串，则可以使用“|”符号分隔。

例如，如果你需要搜索一个大小写不敏感的字符串，那么可以使用如下语法：

pattern = "hello"

string = "Hello, world! Hello, Python!"

re.findall(pattern, string, flags=re.IGNORECASE)

这里的 flags 参数取值为 re.IGNORECASE，表示不区分大小写。运行结果为 ["Hello", "Hello"]。

4. 常见用法

下面我们将介绍四种常见的findall函数用法。

（1）匹配字符串中的字母、数字和下划线。

pattern = "\w+"

string = "Hello, world! # $ % ^ & * () _ + - = [] {} | ; ' , . / ?"

re.findall(pattern, string)

运行结果为 ["Hello", "world", "_"]。

这个正则表达式匹配任意一个字母、数字或下划线，可以用来查找字符串中的所有字母、数字和下划线。如果你只想查找字符串中的所有字母，那么可以使用 "[a-zA-Z]+" 的正则表达式。

（2）匹配URL。

pattern = "(?P<url>https?://[^\s]+)"

string = "Python is an awesome programming language. Visit https://www.python.org"

re.findall(pattern, string)

运行结果为 ["https://www.python.org"]。

这个正则表达式匹配以 http 或 https 开头，后跟 //，然后是任何非空白字符的 URL。

（3）匹配电子邮件地址。

pattern = r"[a-zA-Z0-9._-]+@[a-zA-Z0-9._-]+\.[a-zA-Z0-9._-]+"

string = "Somebody@example.com, somebody_else@123.com"

re.findall(pattern, string)

运行结果为 ["Somebody@example.com", "somebody_else@123.com"]。

（4）匹配日期字符串。

pattern = r"\d{4}-\d{2}-\d{2}"

string = "Today is 2022-05-30, and Tomorrow is 2022-05-31"

re.findall(pattern, string)

运行结果为 ["2022-05-30", "2022-05-31"]。

这个正则表达式匹配日期字符串，可以用来查找字符串中的所有日期字符串。

总结

findall()函数是Python中处理正则表达式的函数之一，它可以实现对文本进行正则表达式匹配，返回所有符合条件的子字符串。在使用 findall()函数时，需要指定需要匹配的正则表达式、需要搜索的字符串以及匹配模式等参数。如果需要提取一个字符串中的子字符串，或者需要对一个字符串进行匹配和搜索操作，那么findall()函数是你不可或缺的工具之一。