使用Python的TLDExtract()函数提取URL中的 域名
Python中的TLDExtract库是一个用于提取URL中 域名(TLD)和其各个部分的Python库。
首先,我们需要安装TLDExtract库。可以使用以下命令在命令行中安装:
pip install tldextract
安装完成后,我们可以使用以下步骤来提取URL中的 域名:
import tldextract url = "https://www.example.com/index.html" extracted = tldextract.extract(url) print(extracted.domain) # 输出: example print(extracted.suffix) # 输出: com print(extracted.registered_domain) # 输出: example.com print(extracted.subdomain) # 输出: www print(extracted.tld) # 输出: com
在上述例子中,我们使用了一个URL字符串(https://www.example.com/index.html)作为输入,然后使用tldextract.extract()函数将其提取为 域名和各个部分。
- extracted.domain 返回URL的二级域名(或称为主域名),在这个例子中是 "example"。
- extracted.suffix 返回URL的 域名后缀,也就是TLD,这里是 "com"。
- extracted.registered_domain 返回URL的完整域名,包含二级域名和 域名后缀,这里是 "example.com"。
- extracted.subdomain 返回URL的子域名,这里是 "www"。
- extracted.tld 返回URL的 域名,这里是 "com"。
这个库还提供了其他一些有用的功能,比如去掉URL的子域名、 域名后缀等。你可以在TLDExtract的官方文档中找到更多的信息和示例:[https://github.com/john-kurkowski/tldextract](https://github.com/john-kurkowski/tldextract)。
除了TLDExtract库,Python还有其他一些提取URL中 域名的库,比如urllib.parse模块中的urlparse()函数以及tld库。你可以根据自己的需求选择合适的库来提取URL中的 域名。
