python如何爬取时光网电影TOP100

发布时间：2023-05-16 02:23:37

爬取时光网电影TOP100是一项有趣、实用的技能，可以让我们更好地了解市场上的电影。

在本文中，我们将会介绍如何使用 Python 爬取时光网电影TOP100。以下是我们将采用的步骤：

1. 分析目标网站

2. 查看网站接口

3. 编写 Python 代码进行爬取

步骤一：分析目标网站

首先，我们需要打开时光网电影TOP100的页面，并观察该页面结构，分析电影信息如何展示。在此我们发现，电影信息包含电影名称、电影评分、电影类型、导演等重要信息。我们要爬取该页面上的电影名称、电影评分和电影类型（同时如果需要，还可以爬取导演等其他信息）。

步骤二：查看网站接口

接下来，我们需要分析网站的接口。一个网站上的大量信息是通过网站 API 接口获取的，所以要了解如何调用这些接口。在这里，我们可以通过浏览器调试工具找到网站 API 接口。浏览器调试工具可以在 Chrome 或其他类似的浏览器中使用。

接下来，我们在浏览器上打开时光网电影TOP100的页面，然后按下 F12 键打开浏览器调试工具。在调试工具的 Network 栏中，我们可以看到浏览器向服务器发送的每个请求。在这里，我们可以筛选所有 XHR 请求，查看所有 API 调用。

通过筛选请求，我们可以看到页面是通过两个不同的接口在获取数据。

* https://movie.douban.com/j/chart/top_list

* https://movie.douban.com/j/chart/top_list_count

通过观察这两个接口，我们可以发现：

* top_list 接口是实际返回电影信息的接口。

* top_list_count 接口是返回电影的总数的接口。

步骤三：编写 Python 代码进行爬取

接下来，我们将使用 Python 和 requests 库进行电影数据的爬取。

步是使用 requests 库中的 get 函数获取对应的接口数据。接口的 URL 地址需要传递参数，如 top_list 接口的参数包括类型、排序、起始位置和结束位置。

top_list_count 接口只需要电影类型作为参数。

接着，我们将使用 json 库来处理返回的数据。我们将通过 Python 字典对象访问 json 中的信息并提取出需要的数据，最终将数据保存到一个文件或数据库中。

import requests
import json

# 定义函数 get_movies_data 获取电影信息
def get_movies_data(start, end):
    url = 'https://movie.douban.com/j/chart/top_list'
    params = {
        'type': '11',
        'interval_id': '100:90',
        'action': '',
        'start': start,
        'limit': end
    }
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
    }
    response = requests.get(url, params=params, headers=headers).text
    return response

# 定义函数 get_movies_count 获取电影总数
def get_movies_count():
    url = 'https://movie.douban.com/j/chart/top_list_count'
    params = {
        'type': '11'
    }
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
    }
    response = requests.get(url, params=params, headers=headers).text
    response_json = json.loads(response)
    return response_json['total']

# 获取电影总数
total = get_movies_count()

# 定义空列表 movie_list 存储电影信息
movie_list = []

# 设置每次获取的记录数 limit
limit = 20

# 分批次获取电影记录
for i in range(0, total, limit):
    start = i
    end = limit
    response = get_movies_data(start, end)
    response_json = json.loads(response)

    # 遍历获取到的电影记录
    for item in response_json:
        movie_name = item['title']
        rating = item['score']
        movie_type = '，'.join(item['types'])
        movie = [movie_name, rating, movie_type]
        movie_list.append(movie)
        print(movie)

# 将电影信息写入文件
with open('movies.txt', mode='w', encoding='utf-8') as f:
    for item in movie_list:
        f.write(','.join(item)+'
')

在这个例子中，我们使用 requests 库完成 GET 请求、使用 json 库处理返回的数据、将数据保存在本地文件中。通过逐步分析、深入了解网站和代码，我们可以更好地理解和掌握 Python 中的数据爬取技巧。

总结

本文提供了一个爬取时光网电影TOP100的完整 Python 代码和流程，希望能为大家提供参考和帮助。通过代码片段的逐步展现，我们可以学习如何阅读和理解代码，从而顺利完成 Python 数据爬取的任务。