如何使用py()函数在Python中实现爬虫功能
发布时间:2024-01-10 06:58:41
在Python中使用py()函数实现爬虫功能主要依赖于一些第三方库,比如requests和beautifulsoup4。以下是一个使用例子,通过爬取豆瓣电影网站的电影排行榜,获取电影的名称和评分信息。
首先,安装所需的库:
pip install requests beautifulsoup4
然后,导入所需的库:
import requests from bs4 import BeautifulSoup
接下来,使用requests库发送HTTP请求,获取网页的HTML内容:
def get_html(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win32) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
}
response = requests.get(url, headers=headers)
return response.text
在这个例子中,我们添加了一个请求头User-Agent来模拟浏览器发送请求。
然后,使用beautifulsoup4库解析HTML内容,提取需要的信息:
def parse_html(html):
soup = BeautifulSoup(html, 'html.parser')
movie_list = soup.find(class_='grid_view').find_all('li')
for movie in movie_list:
title = movie.find(class_='title').text.strip()
rating = movie.find(class_='rating_num').text.strip()
print('电影名称:', title)
print('评分:', rating)
print('---')
在这个例子中,我们使用了CSS选择器来选取需要的DOM元素,并使用text属性来获取元素的文本内容。
最后,编写一个主函数,调用上述两个函数实现完整的爬虫功能:
def main():
url = 'https://movie.douban.com/top250'
html = get_html(url)
parse_html(html)
if __name__ == '__main__':
main()
运行这个脚本,你将会在控制台中看到豆瓣电影排行榜的前 25 个电影的名称和评分信息。
这只是一个简单的示例,实际的爬虫功能可能需要更复杂的操作,比如处理分页、登录、验证码等。在实际开发中,还需要注意爬虫的合法性和道德问题,不要滥用爬虫功能,遵守网站的使用规则。
