使用BeautifulStoneSoup()解析HTML文档并获取其中的脚本代码
发布时间:2024-01-20 05:18:08
BeautifulStoneSoup()是Beautiful Soup库中的一个函数,用于解析HTML文档。它可以将HTML文档转换为BeautifulSoup对象,以便我们可以方便地从中提取信息。
下面是一个使用BeautifulStoneSoup()的例子,代码如下:
from bs4 import BeautifulSoup
html_doc = """
<!DOCTYPE html>
<html>
<head>
<title>BeautifulSoup Example</title>
</head>
<body>
<h1>My HTML Document</h1>
<p>This is a paragraph.</p>
<div class="container">
<ul>
<li class="item">Item 1</li>
<li class="item">Item 2</li>
<li class="item">Item 3</li>
</ul>
</div>
<script>
function sayHello() {
console.log("Hello, World!");
}
</script>
</body>
</html>
"""
soup = BeautifulSoup(html_doc, 'html.parser')
scripts = soup.find_all('script')
for script in scripts:
print(script.get_text())
在这个例子中,我们定义了一个HTML文档作为字符串,并将其传递给BeautifulSoup的构造函数。构造函数的第二个参数指定解析器类型,这里我们选择了内置的html.parser。
然后,我们使用find_all方法来查找所有的script元素,并将结果存储在一个列表中。最后,我们遍历这个列表,并使用get_text方法获取每个script元素的文本内容,并打印出来。
运行上述代码会输出以下结果:
function sayHello() {
console.log("Hello, World!");
}
这是script标签中的脚本代码。通过使用BeautifulStoneSoup(),我们可以轻松地从HTML文档中提取所需的信息,方便地进行后续处理和分析。
