如何使用python批量下载百度文库中的文档

发布时间：2023-12-16 01:00:10

要使用Python批量下载百度文库中的文档，我们可以使用requests库来发送HTTP请求并下载文档。以下是一个使用示例代码：

import requests
from bs4 import BeautifulSoup

def download_documents(keyword, num_pages):
    base_url = "https://wenku.baidu.com/search?word={}&org=0&fd=0&lm=0&od=0&pn={}"
    
    # 循环遍历每一页的搜索结果
    for page in range(num_pages):
        url = base_url.format(keyword, page*10)
        response = requests.get(url)
        soup = BeautifulSoup(response.text, "html.parser")
        
        # 获取每个搜索结果中的文档链接
        doc_links = soup.find_all("a", class_="log-hover-text")
        
        # 循环遍历每个文档链接下载文档
        for link in doc_links:
            doc_url = "https://wenku.baidu.com" + link["href"]
            doc_response = requests.get(doc_url)
            
            # 从响应的URL中解析出文档的名称
            doc_name = doc_url.split("/")[-1]
            
            # 保存文档到本地
            with open(doc_name, "wb") as file:
                file.write(doc_response.content)
                
            print("下载完成:", doc_name)

# 使用示例
download_documents("Python编程", 5)

上述代码首先定义了一个download_documents函数，该函数接受两个参数：keyword是搜索关键词，num_pages是要下载的搜索结果的页数。函数会使用base_url.format(keyword, page*10)构建每一页搜索结果的URL，并发送GET请求获取搜索结果页面的HTML内容。

然后，使用BeautifulSoup库解析HTML内容，使用.find_all("a", class_="log-hover-text")方法找到每个搜索结果中的文档链接。然后，使用循环遍历每个文档链接，构建文档的URL，发送GET请求下载文档，保存到本地。注意，为了给文件命名，使用doc_url.split("/")[-1]解析出文档的名称，然后通过open函数创建文件，使用write方法将文件内容写入到磁盘。

最后，示例代码调用download_documents函数，传入搜索关键词和要下载的搜索结果的页数。在命令行中执行该Python脚本，即可实现批量下载百度文库中的文档。

需要注意的是，百度文库对于下载文档存在一定的限制，可能需要输入验证码或者需要登录账号才能下载某些文档。所以，在实际使用中，可能需要根据具体情况做一些额外的处理。