欢迎访问宙启技术站
智能推送

用Python编写的今日新闻爬虫

发布时间:2023-12-12 21:38:40

今日新闻爬虫是一个使用Python编写的工具,可以自动爬取并整理今日的新闻数据。这个爬虫可以从多个新闻网站抓取新闻标题、链接、发布时间等信息,并将其保存到本地文件或数据库中。

下面是一个使用Python编写的简单的今日新闻爬虫的例子:

import requests
from bs4 import BeautifulSoup


def get_news(url):
    # 发送GET请求,获取网页内容
    response = requests.get(url)
    # 利用BeautifulSoup解析网页
    soup = BeautifulSoup(response.text, 'html.parser')
    # 找到新闻列表
    news_list = soup.find_all('div', class_='news-item')

    # 遍历新闻列表,提取信息
    for news in news_list:
        # 获取新闻标题和链接
        title = news.find('a').text
        link = news.find('a')['href']
        # 获取新闻发布时间
        time = news.find('span', class_='time').text

        # 打印结果
        print('标题:', title)
        print('链接:', link)
        print('发布时间:', time)
        print('----------------')

# 启动爬虫
url = 'https://news.example.com'
get_news(url)

在这个例子中,首先导入了requestsBeautifulSoup模块,requests用于发送HTTP请求,BeautifulSoup用于解析HTML网页。然后,定义了一个get_news函数,用于抓取新闻数据。

get_news函数中,首先发送GET请求,获取网页内容。然后,利用BeautifulSoup解析网页,并找到新闻列表。接下来,遍历新闻列表,提取新闻标题、链接和发布时间等信息。最后,打印结果。

在最后一行,我们可以指定要爬取的新闻网站的URL,并调用get_news函数启动爬虫。你可以根据需要修改URL和其他的元素选择器以适应不同的新闻网站的结构。

这只是一个简单的例子,实际的新闻爬虫可能需要处理更多的异常情况、分页和翻页等功能,并将数据保存到本地文件或数据库中。但是这个例子可以帮助你理解如何使用Python编写一个基本的今日新闻爬虫,并提供一个起点供你根据自己的需求进行扩展。