欢迎访问宙启技术站
智能推送

使用Python编程的get_source()函数帮助你轻松获取网页源代码

发布时间:2024-01-14 09:03:44

在Python中,我们可以使用urllib库中的request模块来获取网页的源代码。下面是一个get_source()函数的例子:

import urllib.request

def get_source(url):
    try:
        req = urllib.request.urlopen(url)
        source = req.read().decode('utf-8')
        return source
    except Exception as e:
        print("Error:", e)
        return None

这个函数接受一个URL作为输入,并使用urlopen()函数打开URL。然后,我们可以使用read()方法读取网页的源代码,并使用decode('utf-8')将二进制数据转换为字符串。

如果出现任何异常(如网络连接错误),我们将捕捉异常并打印错误消息。函数将返回网页源代码作为字符串,如果发生错误,则返回None。

以下是一个使用例子:

url = 'https://www.example.com'
source = get_source(url)

if source:
    print(source)

在这个例子中,我们使用get_source()函数获取https://www.example.com网页的源代码,并将结果存储在source变量中。然后,我们检查source是否存在,并将结果打印出来。

请注意,在使用urllib库时,我们还可以添加一些控制请求的选项,例如设置用户代理、添加标头等。这将有助于更好地模拟浏览器的请求。