如何使用Python中的links()函数获取页面中的外部链接

发布时间：2023-12-15 07:17:31

要使用Python中的links()函数获取页面中的外部链接，你需要首先导入适当的库和模块。在这种情况下，我们将使用requests库来获取页面的HTML内容，并且使用BeautifulSoup库来解析HTML内容。

以下是一个使用Python中的links()函数获取页面中的外部链接的例子：

import requests
from bs4 import BeautifulSoup

def get_external_links(url):
    # 发送GET请求获取页面的HTML内容
    response = requests.get(url)
    html_content = response.text
    
    # 创建BeautifulSoup对象来解析HTML内容
    soup = BeautifulSoup(html_content, 'html.parser')
    
    # 获取页面中的所有<a>标签
    a_tags = soup.find_all('a')
    
    # 初始化一个空列表来存储外部链接
    external_links = []
    
    # 遍历所有<a>标签，找到带有http或https的链接
    for link in a_tags:
        href = link.get('href')
        if href and (href.startswith('http://') or href.startswith('https://')):
            external_links.append(href)
            
    return external_links

# 定义要获取外部链接的页面URL
url = 'https://example.com'

# 调用函数并打印结果
external_links = get_external_links(url)
for link in external_links:
    print(link)

在上述代码中，我们首先导入了requests库和BeautifulSoup库。然后，我们定义了一个名为get_external_links()的函数，该函数接受一个URL作为输入，并返回该页面中的所有外部链接。

函数的实现过程如下：

1. 使用requests.get()函数发送GET请求并获取页面的HTML内容。

2. 创建一个BeautifulSoup对象来解析HTML内容。

3. 使用find_all('a')方法获取页面中的所有<a>标签，并将它们存储在一个列表中。

4. 初始化一个空列表external_links来存储外部链接。

5. 遍历所有的<a>标签，对每个标签，使用get('href')方法获取链接的href属性值。

6. 如果链接存在、以http://或https://开头，将其添加到external_links列表中。

7. 返回external_links列表。

最后，我们在主程序中定义了一个url变量，设置要获取外部链接的页面URL。然后，调用get_external_links()函数并打印结果。

请注意，在实际应用中，你可能需要根据情况对函数进行修改和扩展，以满足特定的需求。