使用TLDExtract()库在Python中获取URL的 域名与域名后缀
发布时间:2023-12-19 06:28:04
TLDExtract是一个用于提取URL的 域名(TLD)和域名后缀的Python库。它可以从给定的URL提取主机名(也就是域名),并将其拆分为子域,主域和 域。
安装TLDExtract库可以使用pip包管理工具,在终端中运行以下命令进行安装:
pip install tldextract
安装完成后,可以在Python脚本中导入TLDExtract:
import tldextract
获取URL的 域名和域名后缀使用TLDExtract库的extract()方法。下面是一个使用例子,展示如何使用TLDExtract库获取URL的 域名和域名后缀:
import tldextract
def get_tld(url):
ext = tldextract.extract(url)
top_domain = ext.registered_domain
suffix = ext.suffix
return top_domain, suffix
# 例子1: 提取 域名和域名后缀
url1 = "https://www.example.com/path/to/page"
top_domain1, suffix1 = get_tld(url1)
print("URL:", url1)
print("Top domain:", top_domain1)
print("Suffix:", suffix1)
# 例子2: 提取 域名和域名后缀
url2 = "https://study.com/subject/python"
top_domain2, suffix2 = get_tld(url2)
print("URL:", url2)
print("Top domain:", top_domain2)
print("Suffix:", suffix2)
运行以上代码,会输出以下结果:
URL: https://www.example.com/path/to/page Top domain: example.com Suffix: com URL: https://study.com/subject/python Top domain: study.com Suffix: com
上述代码中,get_tld()函数接受一个URL作为参数,并使用TLDExtract库的extract()方法提取出 域名和域名后缀。然后,函数返回 域名和域名后缀。
在示例1中,从URL "https://www.example.com/path/to/page" 中提取出的 域名是"example.com",域名后缀是"com"。在示例2中,从URL "https://study.com/subject/python" 中提取出的 域名是"study.com",域名后缀是"com"。
使用TLDExtract库,我们可以有效地从URL中提取出主机名(域名)的 域名和域名后缀,使得我们可以更好地理解和处理URL。
