欢迎访问宙启技术站
智能推送

使用BeautifulStoneSoup()解析HTML文档并获取其中的脚本代码

发布时间:2024-01-20 05:18:08

BeautifulStoneSoup()是Beautiful Soup库中的一个函数,用于解析HTML文档。它可以将HTML文档转换为BeautifulSoup对象,以便我们可以方便地从中提取信息。

下面是一个使用BeautifulStoneSoup()的例子,代码如下:

from bs4 import BeautifulSoup

html_doc = """
<!DOCTYPE html>
<html>
<head>
    <title>BeautifulSoup Example</title>
</head>
<body>
    <h1>My HTML Document</h1>
    <p>This is a paragraph.</p>
    <div class="container">
        <ul>
            <li class="item">Item 1</li>
            <li class="item">Item 2</li>
            <li class="item">Item 3</li>
        </ul>
    </div>
    <script>
        function sayHello() {
            console.log("Hello, World!");
        }
    </script>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')
scripts = soup.find_all('script')

for script in scripts:
    print(script.get_text())

在这个例子中,我们定义了一个HTML文档作为字符串,并将其传递给BeautifulSoup的构造函数。构造函数的第二个参数指定解析器类型,这里我们选择了内置的html.parser。

然后,我们使用find_all方法来查找所有的script元素,并将结果存储在一个列表中。最后,我们遍历这个列表,并使用get_text方法获取每个script元素的文本内容,并打印出来。

运行上述代码会输出以下结果:

function sayHello() {
    console.log("Hello, World!");
}

这是script标签中的脚本代码。通过使用BeautifulStoneSoup(),我们可以轻松地从HTML文档中提取所需的信息,方便地进行后续处理和分析。