使用Python中的get_source()函数获取网页源代码
发布时间:2024-01-14 09:01:54
在Python中,可以使用get_source()函数来获取网页的源代码。get_source()函数实际上是使用第三方库beautifulsoup4来进行网页解析,然后通过requests库来获取网页内容。
下面是一个使用示例,演示如何使用get_source()函数来获取网页源代码:
首先,需要安装beautifulsoup4和requests库。可以通过以下命令使用pip安装这两个库:
pip install beautifulsoup4 pip install requests
然后,可以使用以下代码来获取网页源代码:
import requests
from bs4 import BeautifulSoup
def get_source(url):
# 发送GET请求获取网页内容
response = requests.get(url)
# 使用 beautifulsoup 解析网页内容
soup = BeautifulSoup(response.content, "html.parser")
# 获取网页源代码
source_code = soup.prettify()
return source_code
# 要获取源代码的网页链接
url = "https://www.example.com"
# 调用 get_source() 函数获取网页源代码
source_code = get_source(url)
# 打印网页源代码
print(source_code)
在上述代码中,首先导入了requests和BeautifulSoup库。然后,定义了一个get_source()函数,该函数接受一个URL参数,发送GET请求获取网页内容,然后使用beautifulsoup4库将网页内容解析成BeautifulSoup对象,最后使用prettify()方法获取网页源代码并返回。
接下来,定义了一个URL变量,指定要获取源代码的网页链接。然后,调用get_source()函数并将URL作为参数传入,获取网页源代码,并将其存储在source_code变量中。
最后,打印 source_code 变量的值,即可输出网页源代码。
请注意,上述示例中的代码仅适用于静态网页。如果要获取动态网页的源代码,则需要使用其他工具或库来模拟浏览器行为,例如使用Selenium库。
