Python中的requests.utils.urlparse()函数及其参数介绍

发布时间：2023-12-14 02:04:22

requests.utils.urlparse()函数是requests库中的一个工具函数，用于解析URL字符串，并返回一个包含其各个部分的namedtuple对象。该函数的定义如下：

requests.utils.urlparse(urlstring, scheme='', allow_fragments=True)

参数说明：

- urlstring：待解析的URL字符串。

- scheme：可选参数，指定默认的URL scheme。如果urlstring中未包含scheme部分，则会使用该默认值。默认为空字符串。

- allow_fragments：可选参数，指定是否允许解析URL中的fragment。如果为True，则会解析fragment，并保存在结果中；如果为False，则 fragment 会被忽略。默认为True。

函数返回一个namedtuple对象，包含以下属性：

- scheme：URL的scheme部分，例如'http'、'https'。

- netloc：URL的network location部分，例如'www.example.com'。

- path：URL的path部分，例如'/path/to/file'。

- params：URL的参数部分，例如'?key1=value1&key2=value2'。

- query：URL的query部分，即参数部分去掉'?'符号，例如'key1=value1&key2=value2'。

- fragment：URL的fragment部分，即 URL 中#后面的部分。

下面是一个使用例子：

from requests.utils import urlparse

url = "https://www.example.com/path/to/file?key1=value1&key2=value2#section"
parsed_url = urlparse(url)

print(parsed_url.scheme)  # 输出：https
print(parsed_url.netloc)  # 输出：www.example.com
print(parsed_url.path)  # 输出：/path/to/file
print(parsed_url.params)  # 输出：空字符串，因为URL中未包含params部分
print(parsed_url.query)  # 输出：key1=value1&key2=value2
print(parsed_url.fragment)  # 输出：section

在上面的例子中，我们使用requests.utils.urlparse()函数解析了一个URL字符串，并通过打印namedtuple对象的各个属性，获取了URL的各个部分。

需要注意的是，如果URL字符串中未包含某个部分（如params部分），则对应的属性会被设置为空字符串。而query部分会将参数部分以字符串形式保留，不会解析成字典或其他数据结构。