想要写好Python爬虫？这10个正则表达式函数一定要学会

发布时间：2023-06-04 02:08:06

Python作为一种伟大的编程语言，已经成为了许多程序员的选择。而在Python中，爬虫也是必不可少的一个领域。正则表达式则是Python编程中不可或缺的工具之一。它可以帮助程序员在很多方面匹配与搜索。下面是10个常用的正则表达式函数，如果你是一个Python初学者，学会了这些函数将对你的编程有极大的帮助。

1. re.search(pattern, string[, flags])

这个函数用于从字符串的任何位置开始搜索匹配一个正则表达式的模式。如果匹配成功，它将返回一个匹配对象，否则将返回None。

参数：

pattern：要搜索的正则表达式模式。

string：要在其中搜索的字符串。

flags：可选，用于修改正则表达式模式的行为。

例如，下面的代码将在指定字符串中搜索包含数字的字符串，并返回该字符串：

import re

string = 'This is a string that contains 123'

result = re.search('\d+', string)

print(result.group(0))

输出：

123

2. re.match(pattern, string[, flags])

re.search()函数与re.match()函数类似，只不过它从字符串的开头开始匹配正则表达式模式。如果匹配成功，它将返回一个匹配对象，否则将返回None。

参数：

pattern：要搜索的正则表达式模式。

string：要在其中搜索的字符串。

flags：可选，用于修改正则表达式模式的行为。

例如，下面的代码将从指定字符串的开头搜索一个以大写字母开头的单词，并返回该单词：

import re

string = 'Python is a great language'

result = re.match('[A-Z][a-z]+', string)

print(result.group(0))

输出：

Python

3. re.findall(pattern, string[, flags])

这个函数用于查找字符串中所有与正则表达式模式匹配的字符串，并返回一个字符串列表。

参数：

pattern：要搜索的正则表达式模式。

string：要在其中搜索的字符串。

flags：可选，用于修改正则表达式模式的行为。

例如，下面的代码将在指定字符串中查找所有的数字，并返回这些数字组成的列表：

import re

string = 'This is a string that contains 123 and 456'

result = re.findall('\d+', string)

print(result)

输出：

['123', '456']

4. re.sub(pattern, repl, string[, count, flags])

这个函数用于在指定字符串中查找所有匹配正则表达式模式的字符串，并将其替换为指定的内容。可以指定替换次数。

参数：

pattern：要搜索的正则表达式模式。

repl：要替换为的内容。

string：要在其中搜索的字符串。

count：可选，指定替换的次数，默认为全部替换。

flags：可选，用于修改正则表达式模式的行为。

例如，下面的代码将在指定字符串中查找所有的数字，并将其替换为'NUM'：

import re

string = 'This is a string that contains 123'

result = re.sub('\d+', 'NUM', string)

print(result)

输出：

This is a string that contains NUM

5. re.compile(pattern[, flags])

这个函数用于编译正则表达式模式，以便可以在将来使用。它可以提高执行效率，并且可以在多次使用相同的正则表达式模式时提高代码可读性。

参数：

pattern：要编译的正则表达式模式。

flags：可选，用于修改正则表达式模式的行为。

例如，下面的代码编译了一个匹配数字的正则表达式模式，并在指定字符串中搜索匹配的内容：

import re

pattern = re.compile('\d+')

string = 'This is a string that contains 123'

result = pattern.findall(string)

print(result)

输出：

['123']

6. re.split(pattern, string[, maxsplit, flags])

这个函数根据匹配正则表达式模式的位置分割字符串，并返回一个字符串列表。

参数：

pattern：要搜索的正则表达式模式。

string：要分割的字符串。

maxsplit：可选，指定最大分割次数。

flags：可选，用于修改正则表达式模式的行为。

例如，下面的代码将在指定字符串中查找所有的空格，并使用分割符分割字符串：

import re

string = 'This is a string'

result = re.split('\s', string)

print(result)

输出：

['This', 'is', 'a', 'string']

7. re.escape(string)

这个函数用于转义正则表达式模式中的特殊字符。

参数：

string：要转义的字符串。

例如，下面的代码将在指定的字符串中查找所有的'.'：

import re

string = 'www.example.com'

result = re.findall('\.', string)

print(result)

输出：

['.', '.']

如果使用re.escape()函数，可以避免在正则表达式模式中转义这些特殊字符：

import re

string = 'www.example.com'

result = re.findall(re.escape('.'), string)

print(result)

输出：

['.', '.']

8. re.ignorecase(pattern)

这个函数用于匹配正则表达式模式时忽略大小写。

参数：

pattern：要搜索的正则表达式模式。

例如，下面的代码将在指定字符串中查找所有的'Python'，无论其大小写：

import re

string = 'Python is a great language'

result = re.findall(re.ignorecase('python'), string)

print(result)

输出：

['Python']

9. re.VERBOSE

这是一个特殊的标志，可以在编写复杂的正则表达式模式时提高可读性。

例如，这是一个匹配电子邮件地址的正则表达式模式：

import re

pattern = re.compile(r'''

# Match email address

(?P<username>[\w.%+-]+) # Username

@ # Separator

(?P<domain>[\w.-]+\.[a-zA-Z]{2,4}) # Domain

''', re.VERBOSE)

10. re.DEBUG

这个标志可以用于调试正则表达式，它会输出一些有关正则表达式匹配规则的详细信息。

例如，下面的代码将输出一个匹配电话号码的正则表达式模式的调试信息：

import re

pattern = re.compile('(\d{3})-(\d{3}-\d{4})', re.DEBUG)