Python中src()函数在爬虫中的应用探索
发布时间:2024-01-12 17:47:53
src()函数在Python的爬虫中主要用于获取HTML标签中的src属性值。在爬取网页的时候,经常会用到这个函数来获取图片、音频、视频等资源的URL链接。
下面是src()函数在爬虫中的使用例子:
import requests
from bs4 import BeautifulSoup
def get_image_urls(url):
# 发送GET请求获取网页内容
response = requests.get(url)
html = response.text
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(html, 'html.parser')
# 获取所有的img标签
img_tags = soup.find_all('img')
# 遍历img标签,获取src属性值
img_urls = []
for img_tag in img_tags:
src = img_tag['src']
img_urls.append(src)
return img_urls
# 以百度首页为例,获取首页中所有图片的URL链接
image_urls = get_image_urls('https://www.baidu.com')
# 打印所有图片的URL链接
for image_url in image_urls:
print(image_url)
在以上代码中,首先引入了requests库和BeautifulSoup库。使用requests库发送GET请求,获取网页的HTML内容。然后使用BeautifulSoup库对网页内容进行解析。
在get_image_urls函数中,使用find_all函数找到所有的img标签。然后使用src()函数获取img标签的src属性值,将其添加到一个列表中。
最后,在主函数中调用get_image_urls函数,并打印获取到的所有图片的URL链接。
这个例子展示了如何利用src()函数在爬取网页时获取图片的URL链接,实际应用中可以根据需要修改代码,获取其他类型的资源链接。
