欢迎访问宙启技术站
智能推送

如何使用py()函数在Python中实现爬虫功能

发布时间:2024-01-10 06:58:41

在Python中使用py()函数实现爬虫功能主要依赖于一些第三方库,比如requestsbeautifulsoup4。以下是一个使用例子,通过爬取豆瓣电影网站的电影排行榜,获取电影的名称和评分信息。

首先,安装所需的库:

pip install requests beautifulsoup4

然后,导入所需的库:

import requests
from bs4 import BeautifulSoup

接下来,使用requests库发送HTTP请求,获取网页的HTML内容:

def get_html(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win32) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    return response.text

在这个例子中,我们添加了一个请求头User-Agent来模拟浏览器发送请求。

然后,使用beautifulsoup4库解析HTML内容,提取需要的信息:

def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    movie_list = soup.find(class_='grid_view').find_all('li')

    for movie in movie_list:
        title = movie.find(class_='title').text.strip()
        rating = movie.find(class_='rating_num').text.strip()
        print('电影名称:', title)
        print('评分:', rating)
        print('---')

在这个例子中,我们使用了CSS选择器来选取需要的DOM元素,并使用text属性来获取元素的文本内容。

最后,编写一个主函数,调用上述两个函数实现完整的爬虫功能:

def main():
    url = 'https://movie.douban.com/top250'
    html = get_html(url)
    parse_html(html)

if __name__ == '__main__':
    main()

运行这个脚本,你将会在控制台中看到豆瓣电影排行榜的前 25 个电影的名称和评分信息。

这只是一个简单的示例,实际的爬虫功能可能需要更复杂的操作,比如处理分页、登录、验证码等。在实际开发中,还需要注意爬虫的合法性和道德问题,不要滥用爬虫功能,遵守网站的使用规则。