在Python中实现一个简单的网页爬虫程序
发布时间:2023-12-04 08:53:42
使用Python编写一个简单的网页爬虫程序可以很容易地实现。下面是一个简单的实例,可用于提取指定网页的标题、正文和所有的超链接。
import requests
from bs4 import BeautifulSoup
def get_html(url):
response = requests.get(url)
return response.text
def get_title(html):
soup = BeautifulSoup(html, 'html.parser')
title = soup.title.string
return title
def get_text(html):
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text()
return text
def get_links(html):
soup = BeautifulSoup(html, 'html.parser')
links = []
for link in soup.find_all('a'):
links.append(link.get('href'))
return links
if __name__ == '__main__':
url = 'https://example.com' # 设置你要爬取的网页URL
html = get_html(url)
title = get_title(html)
text = get_text(html)
links = get_links(html)
print('标题:', title)
print('正文:', text)
print('超链接:', links)
运行以上代码,程序会请求指定的URL,然后使用BeautifulSoup库解析HTML页面。get_html()函数用于获取网页的原始HTML内容。get_title()函数将提取HTML标题的内容。get_text()函数将提取HTML页面的纯文本内容。get_links()函数将提取HTML页面中的所有超链接。
在主程序中,你需要将url变量设置为你要爬取的网页的URL。然后,使用get_html()函数获取网页的HTML内容。接下来,调用get_title()、get_text()和get_links()函数分别获取标题、正文和超链接。最后,将结果打印出来。
这只是一个简单的网页爬虫程序,你可以根据自己的需求进行更多的修改和优化。在实际应用中,还需要考虑处理异常、保存爬取的数据等其他功能。
