用Python编写的简单爬虫程序
发布时间:2023-12-04 14:54:09
Python是一种强大的编程语言,它提供了许多库和工具来简化爬取数据的过程。有很多方法可以编写简单的爬虫程序,下面是一个使用Python编写的简单爬虫程序的示例代码。
import requests
from bs4 import BeautifulSoup
def get_page(url):
response = requests.get(url)
return response.text
def parse_page(html):
soup = BeautifulSoup(html, 'html.parser')
titles = soup.find_all('h2', class_='title')
for title in titles:
print(title.text)
def main():
url = 'https://example.com'
html = get_page(url)
parse_page(html)
if __name__ == '__main__':
main()
上面的代码通过requests库发送HTTP请求,获取网页的HTML内容,然后使用BeautifulSoup库对HTML进行解析,提取出感兴趣的数据。
get_page函数接受一个URL作为参数,并使用requests库发送GET请求。它返回请求得到的响应的HTML内容。
parse_page函数接受一个HTML字符串作为参数,并使用BeautifulSoup库对其进行解析。在这个示例中,我们假设网页中的标题使用<h2>标签和class为title。我们使用find_all方法查找所有匹配的标题,并循环遍历打印出来。
main函数是我们程序的入口点,它调用get_page函数获取HTML内容,然后调用parse_page函数进行解析。
最后,在main函数的最后,我们使用if __name__ == '__main__'来确保这个脚本被直接运行而不是作为模块导入。这样可以在命令行中执行python script.py来运行这个爬虫程序。
这只是一个简单的示例,实际上爬虫程序可能会更复杂。你可能需要处理一些网页的特殊情况,如处理动态加载的内容、处理登录和验证、处理分页等等。但是这个简单的爬虫程序可以帮助你了解基本的爬取网页和解析数据的过程。
