Python编写的简单爬虫程序
发布时间:2023-12-04 10:18:52
爬虫程序是指按照一定规则自动从互联网上获取信息的程序,可以用于获取网页内容、图片、视频等。Python是很多人选择编写爬虫程序的主要语言之一,因为它有丰富的第三方库可以帮助开发者完成网络请求、解析HTML、处理数据等任务。
下面是一个简单的Python爬虫程序示例,用于获取指定网页的标题和所有的链接:
import requests
from bs4 import BeautifulSoup
def get_page_title(url):
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
return soup.title.string
def get_page_links(url):
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
links = soup.find_all('a')
return [link.get('href') for link in links]
if __name__ == '__main__':
url = 'https://www.example.com'
title = get_page_title(url)
print('Page title:', title)
links = get_page_links(url)
print('Page links:')
for link in links:
print(link)
上面的例子使用了两个第三方库,requests用于发送网络请求,BeautifulSoup用于解析HTML。首先,我们定义了两个函数,get_page_title和get_page_links,分别用于获取网页标题和所有的链接。
在get_page_title函数中,我们使用requests.get发送GET请求,获取网页的内容。然后,使用BeautifulSoup将内容解析成一个树状结构,并通过soup.title.string获取到页面的标题。
在get_page_links函数中,我们也是使用requests.get发送GET请求,获取网页内容。然后,使用BeautifulSoup将内容解析成一个树状结构,并使用soup.find_all('a')获取到所有的链接元素。最后,我们使用列表推导式将所有的链接提取出来,存放在一个列表中返回。
在main函数中,我们指定了一个URL,然后分别调用get_page_title和get_page_links函数获取页面的标题和链接。最后,打印输出结果。
请注意,编写爬虫程序时应该遵循相关法律法规,尊重网站的隐私政策和使用规定,不要对他人的权益造成侵犯或伤害。
