欢迎访问宙启技术站
智能推送

在Python中实现一个简单的网页爬虫程序

发布时间:2023-12-04 08:53:42

使用Python编写一个简单的网页爬虫程序可以很容易地实现。下面是一个简单的实例,可用于提取指定网页的标题、正文和所有的超链接。

import requests
from bs4 import BeautifulSoup

def get_html(url):
    response = requests.get(url)
    return response.text

def get_title(html):
    soup = BeautifulSoup(html, 'html.parser')
    title = soup.title.string
    return title

def get_text(html):
    soup = BeautifulSoup(html, 'html.parser')
    text = soup.get_text()
    return text

def get_links(html):
    soup = BeautifulSoup(html, 'html.parser')
    links = []
    for link in soup.find_all('a'):
        links.append(link.get('href'))
    return links

if __name__ == '__main__':
    url = 'https://example.com' # 设置你要爬取的网页URL
    html = get_html(url)
    title = get_title(html)
    text = get_text(html)
    links = get_links(html)

    print('标题:', title)
    print('正文:', text)
    print('超链接:', links)

运行以上代码,程序会请求指定的URL,然后使用BeautifulSoup库解析HTML页面。get_html()函数用于获取网页的原始HTML内容。get_title()函数将提取HTML标题的内容。get_text()函数将提取HTML页面的纯文本内容。get_links()函数将提取HTML页面中的所有超链接。

在主程序中,你需要将url变量设置为你要爬取的网页的URL。然后,使用get_html()函数获取网页的HTML内容。接下来,调用get_title()get_text()get_links()函数分别获取标题、正文和超链接。最后,将结果打印出来。

这只是一个简单的网页爬虫程序,你可以根据自己的需求进行更多的修改和优化。在实际应用中,还需要考虑处理异常、保存爬取的数据等其他功能。