正则表达式函数-Python正则表达式相关函数详解及应用方法

发布时间：2023-06-17 01:20:53

正则表达式是一种用于描述字符串模式的语言，它可以搜索、替换和处理文本数据。在Python中，有一些内置的函数可以帮助我们使用正则表达式来处理文本数据。本文将介绍Python中正则表达式相关函数及其应用方法。

re模块

Python中正则表达式相关的函数都在re模块中。在使用这些函数之前，我们需要先导入re模块。

import re

1. re.match()

re.match()函数用于从字符串的起始位置匹配一个模式。如果匹配成功，函数返回一个匹配对象；否则返回None。

语法：

re.match(pattern, string, flags=0)

参数说明：

- pattern：正则表达式的模式字符串。

- string：要匹配的字符串。

- flags：可选项，用于控制正则表达式的匹配方式。常用的有re.I(忽略大小写)、re.M(多行匹配)。

例：

import re
 
line = "Cats are smarter than dogs"
 
# 匹配以Cats开头的字符串
matchObj = re.match( r'Cats', line, re.I)
if matchObj:
    print("matchObj.group() : ", matchObj.group())
else:
    print("No match!!")

输出：

matchObj.group() :  Cats

2. re.search()

re.search()函数用于在字符串中搜索匹配项。如果匹配成功，函数返回一个匹配对象；否则返回None。

语法：

re.search(pattern, string, flags=0)

参数说明：

- pattern：正则表达式的模式字符串。

- string：要匹配的字符串。

- flags：可选项，用于控制正则表达式的匹配方式。常用的有re.I(忽略大小写)、re.M(多行匹配)。

例：

import re
 
line = "Cats are smarter than dogs"
 
# 在字符串中查找"Cats"，不区分大小写
searchObj = re.search(r'cats', line, re.I)
if searchObj:
    print("searchObj.group() : ", searchObj.group())
else:
    print("Nothing found!!")

输出：

searchObj.group() :  Cats

3. re.findall()

re.findall()函数用于在字符串中查找所有匹配项。如果匹配成功，函数返回一个列表；否则返回空列表。

语法：

re.findall(pattern, string, flags=0)

参数说明：

- pattern：正则表达式的模式字符串。

- string：要匹配的字符串。

- flags：可选项，用于控制正则表达式的匹配方式。常用的有re.I(忽略大小写)、re.M(多行匹配)。

例：

import re

text = "The cat is cute. The cat is smart. The dog is loyal."
# 在字符串中查找所有以cat开头的单词
result = re.findall(r'\bcat\w*', text, re.I)
print(result)

输出：

['cat', 'cute', 'cat', 'smart']

4. re.sub()

re.sub()函数用于将字符串中的某些部分替换为其他字符串。

语法：

re.sub(pattern, repl, string, count=0, flags=0)

参数说明：

- pattern：正则表达式的模式字符串。

- repl：用于替换匹配到的字符串的字符串，也可以是一个函数，用于生成替换的字符串。

- string：要匹配的字符串。

- count：可选项，替换的最大次数，默认为0，表示替换所有匹配到的字符串。

- flags：可选项，用于控制正则表达式的匹配方式。常用的有re.I(忽略大小写)、re.M(多行匹配)。

例：

import re

text = "The cat is cute. The cat is smart. The dog is loyal."
# 将所有以cat开头的单词替换为dog
result = re.sub(r'\bcat\w*', 'dog', text, flags=re.I)
print(result)

输出：

The dog is cute. The dog is smart. The dog is loyal.

5. re.split()

re.split()函数用于根据正则表达式对字符串进行分割，返回分割后的列表。

语法：

re.split(pattern, string, maxsplit=0, flags=0)

参数说明：

- pattern：正则表达式的模式字符串。

- string：要匹配的字符串。

- maxsplit：可选项，分割的最大次数，默认为0，表示不限制。

- flags：可选项，用于控制正则表达式的匹配方式。常用的有re.I(忽略大小写)、re.M(多行匹配)。

例：

import re

text = "The cat is cute. The cat is smart. The dog is loyal."
# 根据空格和句号对字符串进行分割
result = re.split(r'[\s\.]+', text)
print(result)

输出：

['The', 'cat', 'is', 'cute', 'The', 'cat', 'is', 'smart', 'The', 'dog', 'is', 'loyal', '']

以上就是Python中常用的正则表达式相关函数。使用这些函数可以方便地处理文本数据，实现各种功能。