欢迎访问宙启技术站
智能推送

使用Python的TLDExtract()函数提取URL中的 域名

发布时间:2023-12-19 06:26:16

Python中的TLDExtract库是一个用于提取URL中 域名(TLD)和其各个部分的Python库。

首先,我们需要安装TLDExtract库。可以使用以下命令在命令行中安装:

pip install tldextract

安装完成后,我们可以使用以下步骤来提取URL中的 域名:

import tldextract

url = "https://www.example.com/index.html"
extracted = tldextract.extract(url)

print(extracted.domain)  # 输出: example
print(extracted.suffix)  # 输出: com
print(extracted.registered_domain)  # 输出: example.com
print(extracted.subdomain)  # 输出: www
print(extracted.tld)  # 输出: com

在上述例子中,我们使用了一个URL字符串(https://www.example.com/index.html)作为输入,然后使用tldextract.extract()函数将其提取为 域名和各个部分。

- extracted.domain 返回URL的二级域名(或称为主域名),在这个例子中是 "example"。

- extracted.suffix 返回URL的 域名后缀,也就是TLD,这里是 "com"。

- extracted.registered_domain 返回URL的完整域名,包含二级域名和 域名后缀,这里是 "example.com"。

- extracted.subdomain 返回URL的子域名,这里是 "www"。

- extracted.tld 返回URL的 域名,这里是 "com"。

这个库还提供了其他一些有用的功能,比如去掉URL的子域名、 域名后缀等。你可以在TLDExtract的官方文档中找到更多的信息和示例:[https://github.com/john-kurkowski/tldextract](https://github.com/john-kurkowski/tldextract)。

除了TLDExtract库,Python还有其他一些提取URL中 域名的库,比如urllib.parse模块中的urlparse()函数以及tld库。你可以根据自己的需求选择合适的库来提取URL中的 域名。