欢迎访问宙启技术站
智能推送

使用TLDExtract()库在Python中获取URL的 域名与域名后缀

发布时间:2023-12-19 06:28:04

TLDExtract是一个用于提取URL的 域名(TLD)和域名后缀的Python库。它可以从给定的URL提取主机名(也就是域名),并将其拆分为子域,主域和 域。

安装TLDExtract库可以使用pip包管理工具,在终端中运行以下命令进行安装:

pip install tldextract

安装完成后,可以在Python脚本中导入TLDExtract:

import tldextract

获取URL的 域名和域名后缀使用TLDExtract库的extract()方法。下面是一个使用例子,展示如何使用TLDExtract库获取URL的 域名和域名后缀:

import tldextract

def get_tld(url):
    ext = tldextract.extract(url)
    top_domain = ext.registered_domain
    suffix = ext.suffix
    return top_domain, suffix

# 例子1: 提取      域名和域名后缀
url1 = "https://www.example.com/path/to/page"
top_domain1, suffix1 = get_tld(url1)
print("URL:", url1)
print("Top domain:", top_domain1)
print("Suffix:", suffix1)

# 例子2: 提取      域名和域名后缀
url2 = "https://study.com/subject/python"
top_domain2, suffix2 = get_tld(url2)
print("URL:", url2)
print("Top domain:", top_domain2)
print("Suffix:", suffix2)

运行以上代码,会输出以下结果:

URL: https://www.example.com/path/to/page
Top domain: example.com
Suffix: com
URL: https://study.com/subject/python
Top domain: study.com
Suffix: com

上述代码中,get_tld()函数接受一个URL作为参数,并使用TLDExtract库的extract()方法提取出 域名和域名后缀。然后,函数返回 域名和域名后缀。

在示例1中,从URL "https://www.example.com/path/to/page" 中提取出的 域名是"example.com",域名后缀是"com"。在示例2中,从URL "https://study.com/subject/python" 中提取出的 域名是"study.com",域名后缀是"com"。

使用TLDExtract库,我们可以有效地从URL中提取出主机名(域名)的 域名和域名后缀,使得我们可以更好地理解和处理URL。