BeautifulSoup：使用Python解析HTML和XML

发布时间：2023-06-21 22:08:13

BeautifulSoup是一个Python的第三方库，用于解析HTML和XML文档。通过BeautifulSoup，可以轻松地从HTML或XML文档中提取所需的信息，例如文本、链接、图片、表格等等。下面将对BeautifulSoup的基本用法进行简要介绍。

1. 安装BeautifulSoup

在Python环境下通过pip安装BeautifulSoup：

pip install BeautifulSoup4

2. 解析HTML文档

在使用BeautifulSoup解析HTML文档时，需要先将HTML文档加载进来。可以通过打开本地文件或请求远程URL的方式来加载HTML文档：

import requests
from bs4 import BeautifulSoup

# 请求URL
url = 'https://www.baidu.com'

# 请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

# 发送请求
response = requests.get(url, headers=headers)

# 解析HTML文档
soup = BeautifulSoup(response.text, 'html.parser')

# 打印HTML代码
print(soup.prettify())

在上面的代码中，我们使用requests发送了一个get请求，并将服务器的响应保存在了response变量中。然后，使用BeautifulSoup对响应的HTML内容进行解析。解析完毕后，可以使用prettify()方法将HTML代码格式化输出，使其更易于查看。

在解析HTML文档之后，就可以使用BeautifulSoup提供的API来获取文档中的各种信息了。

3. 获取标签内容

获取标签内容是解析HTML文档的最常见需求。下面是一些用于获取标签内容的基本方法：

# 查找所有的a标签
soup.find_all('a')

# 查找      个a标签
soup.find('a')

# 查找class属性为s-news-rank-wp的div标签
soup.find('div', {'class': 's-news-rank-wp'})

# 获取a标签中的href属性值
a = soup.find('a', href=True)
print(a['href'])

# 获取a标签的文本内容
print(a.get_text())

# 获取p标签的所有文本内容
p = soup.find('p')
print(p.get_text())

# 获取标签中的属性值
a = soup.find('a')
print(a['href'])

4. 遍历文档树

BeautifulSoup提供了一种遍历文档树的方式，让我们可以逐层访问文档中的标签。以下是一些基本方法：

# 获取标签的父节点
a = soup.find('a')
print(a.parent)

# 获取标签的所有兄弟节点
print(a.next_sibling)
print(a.previous_sibling)

# 遍历子节点
for child in soup.body.children:
    print(child)

# 遍历所有的子孙节点
for child in soup.descendants:
    print(child)

5. 使用CSS选择器

除了通过标签名、属性名等搜索方式外，BeautifulSoup还支持使用CSS选择器进行文档搜索。以下是一些基本方法：

# 查找class属性为s-news-rank-wp的div标签
soup.select('.s-news-rank-wp')

# 查找id属性为wrapper的div标签
soup.select('#wrapper')

# 查找所有的a标签
soup.select('a')

# 获取a标签中的href属性值
a = soup.select_one('a[href]')
print(a['href'])

总之，BeautifulSoup是一个非常强大的HTML和XML解析库，其使用简单、方便。通过了解BeautifulSoup的基本用法，可以更快地从HTML和XML文档中提取所需的信息。