欢迎访问宙启技术站
智能推送

Python编写的简单爬虫程序

发布时间:2023-12-04 10:18:52

爬虫程序是指按照一定规则自动从互联网上获取信息的程序,可以用于获取网页内容、图片、视频等。Python是很多人选择编写爬虫程序的主要语言之一,因为它有丰富的第三方库可以帮助开发者完成网络请求、解析HTML、处理数据等任务。

下面是一个简单的Python爬虫程序示例,用于获取指定网页的标题和所有的链接:

import requests
from bs4 import BeautifulSoup

def get_page_title(url):
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        return soup.title.string

def get_page_links(url):
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        links = soup.find_all('a')
        return [link.get('href') for link in links]

if __name__ == '__main__':
    url = 'https://www.example.com'
    title = get_page_title(url)
    print('Page title:', title)

    links = get_page_links(url)
    print('Page links:')
    for link in links:
        print(link)

上面的例子使用了两个第三方库,requests用于发送网络请求,BeautifulSoup用于解析HTML。首先,我们定义了两个函数,get_page_titleget_page_links,分别用于获取网页标题和所有的链接。

get_page_title函数中,我们使用requests.get发送GET请求,获取网页的内容。然后,使用BeautifulSoup将内容解析成一个树状结构,并通过soup.title.string获取到页面的标题。

get_page_links函数中,我们也是使用requests.get发送GET请求,获取网页内容。然后,使用BeautifulSoup将内容解析成一个树状结构,并使用soup.find_all('a')获取到所有的链接元素。最后,我们使用列表推导式将所有的链接提取出来,存放在一个列表中返回。

main函数中,我们指定了一个URL,然后分别调用get_page_titleget_page_links函数获取页面的标题和链接。最后,打印输出结果。

请注意,编写爬虫程序时应该遵循相关法律法规,尊重网站的隐私政策和使用规定,不要对他人的权益造成侵犯或伤害。