欢迎访问宙启技术站
智能推送

用Python编写一个简单的网页爬虫程序

发布时间:2023-12-04 09:11:56

编写一个简单的网页爬虫程序,可以使用Python的requests和BeautifulSoup库来实现。以下是一个使用例子,这个程序可以从指定的网页上获取电影的名称和评分信息,并将结果输出到控制台。

首先,我们需要导入requests和BeautifulSoup库:

import requests
from bs4 import BeautifulSoup

接下来,我们定义一个函数来获取网页的内容:

def get_html(url):
    response = requests.get(url)
    return response.content

然后,我们定义一个函数来解析网页内容,并提取电影名称和评分信息:

def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    movies = soup.find_all('div', {'class': 'movie'})
    results = []
    for movie in movies:
        name = movie.find('div', {'class': 'name'}).text.strip()
        rating = movie.find('div', {'class': 'rating'}).text.strip()
        results.append((name, rating))
    return results

最后,我们可以使用以上定义的函数来爬取指定网页上的电影名称和评分信息:

url = 'https://www.example.com/movies'
html = get_html(url)
results = parse_html(html)
for result in results:
    print(result[0], result[1])

在上述代码中,我们传入了一个示例网页的URL,然后调用get_html函数获取网页内容,再调用parse_html函数解析网页内容得到电影名称和评分信息。最后,我们遍历结果并打印每个电影的名称和评分。

这只是一个简单的网页爬虫程序的示例,你可以根据具体的需求进行修改和扩展。请注意,在实际的网页爬取过程中,要遵守网站的使用规定,并避免过度请求或滥用网站资源。