欢迎访问宙启技术站
智能推送

使用Python中的get_source()函数获取网页源代码

发布时间:2024-01-14 09:01:54

在Python中,可以使用get_source()函数来获取网页的源代码。get_source()函数实际上是使用第三方库beautifulsoup4来进行网页解析,然后通过requests库来获取网页内容。

下面是一个使用示例,演示如何使用get_source()函数来获取网页源代码:

首先,需要安装beautifulsoup4requests库。可以通过以下命令使用pip安装这两个库:

pip install beautifulsoup4
pip install requests

然后,可以使用以下代码来获取网页源代码:

import requests
from bs4 import BeautifulSoup

def get_source(url):
    # 发送GET请求获取网页内容
    response = requests.get(url)
    # 使用 beautifulsoup 解析网页内容
    soup = BeautifulSoup(response.content, "html.parser")
    # 获取网页源代码
    source_code = soup.prettify()
    return source_code

# 要获取源代码的网页链接
url = "https://www.example.com"
# 调用 get_source() 函数获取网页源代码
source_code = get_source(url)
# 打印网页源代码
print(source_code)

在上述代码中,首先导入了requestsBeautifulSoup库。然后,定义了一个get_source()函数,该函数接受一个URL参数,发送GET请求获取网页内容,然后使用beautifulsoup4库将网页内容解析成BeautifulSoup对象,最后使用prettify()方法获取网页源代码并返回。

接下来,定义了一个URL变量,指定要获取源代码的网页链接。然后,调用get_source()函数并将URL作为参数传入,获取网页源代码,并将其存储在source_code变量中。

最后,打印 source_code 变量的值,即可输出网页源代码。

请注意,上述示例中的代码仅适用于静态网页。如果要获取动态网页的源代码,则需要使用其他工具或库来模拟浏览器行为,例如使用Selenium库。