欢迎访问宙启技术站
智能推送

使用tldextract快速提取URL中的域名和 域

发布时间:2023-12-19 05:01:22

tldextract是一个用Python编写的库,用于从URL中提取域名和 域。它可以快速准确地提取URL中的域名部分,包括子域名、域名和 域,并返回一个包含这些部分的命名元组。使用tldextract的过程非常简单,下面是一个使用例子。

首先,你需要在Python环境中安装tldextract库。你可以使用pip安装它,只需在命令行中运行以下命令:

pip install tldextract

安装完成后,你可以开始使用tldextract提取URL中的域名和 域。

首先,导入tldextract库:

import tldextract

然后,调用tldextract.extract()函数,并传入URL作为参数。这个函数将返回一个命名元组,其中包含了从URL中提取的域名和 域。

url = "https://www.example.com/somepage.html"
result = tldextract.extract(url)

你可以通过使用result属性来访问提取结果中的各个部分。例如,要访问提取的子域名,你可以使用result.subdomain

print(result.subdomain)  # 输出:www

要访问提取的域名,你可以使用result.domain

print(result.domain)  # 输出:example

要访问提取的 域,你可以使用result.suffix

print(result.suffix)  # 输出:com

在这个例子中,使用tldextract从URL中提取了子域名、域名和 域,并输出了它们的值。

你也可以使用tldextract来提取URL列表的域名和 域。下面是一个例子:

urls = ["https://www.example.com/somepage.html", "http://test.example.org", "https://subdomain.example.co.uk"]
for url in urls:
    result = tldextract.extract(url)
    print(result.subdomain, result.domain, result.suffix)

这个例子将迭代处理URL列表中的每个URL,并提取它们的子域名、域名和 域,然后输出它们的值。

总结来说,使用tldextract可以轻松快速地从URL中提取域名和 域。你只需要导入tldextract库,然后调用tldextract.extract()函数即可。通过访问返回的命名元组的各个属性,你可以方便地获取提取结果中的域名和 域。