下载和解析网页的Java函数

发布时间：2023-07-25 05:29:20

以下是一个简单的Java函数，用于下载和解析网页：

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;

public class WebPageDownloader {

    public static void main(String[] args) {
        String url = "https://example.com"; // 网页的URL
        
        // 下载网页
        String webpageContent = downloadWebPage(url);
        
        // 解析网页内容
        parseWebPage(webpageContent);
    }

    public static String downloadWebPage(String url) {
        StringBuilder webpageContent = new StringBuilder();

        try {
            URL pageUrl = new URL(url);
            BufferedReader reader = new BufferedReader(new InputStreamReader(pageUrl.openStream()));

            String line;
            while ((line = reader.readLine()) != null) {
                webpageContent.append(line);
                webpageContent.append("
");
            }

            reader.close();
        } catch (IOException e) {
            e.printStackTrace();
        }

        return webpageContent.toString();
    }

    public static void parseWebPage(String webpageContent) {
        // 在这里编写解析网页的代码，根据需要使用正则表达式、HTML解析器等工具解析网页内容
        // 以下是一个示例，仅用于演示功能，实际解析方法需要根据网页结构进行编写
        if (webpageContent.contains("<title>")) {
            int startIndex = webpageContent.indexOf("<title>") + 7;
            int endIndex = webpageContent.indexOf("</title>");
            String title = webpageContent.substring(startIndex, endIndex);
            System.out.println("网页标题： " + title);
        } else {
            System.out.println("无法解析网页标题！");
        }

        // 在这里继续编写解析网页的代码
    }
}

上述函数中的downloadWebPage函数用于下载网页内容，它通过URL类和openStream方法从指定URL中打开一个输入流，然后使用BufferedReader逐行读取网页内容，并将其存储在StringBuilder中。最后，函数将网页内容作为一个字符串返回。

parseWebPage函数用于解析网页的内容，你可以在函数中使用各种方法来解析网页内容，例如使用正则表达式、HTML解析器等。在上述示例中，我们使用了一个简单的方法来提取网页标题，但实际上你可以根据网页的结构和需要来编写更复杂的解析代码。

请注意，上述代码仅提供了一个简单的框架来下载和解析网页，你可能需要根据实际需求进行修改和扩展。例如，你可能需要处理异常情况、添加更多的解析方法等。在实际开发中，你还可以使用更高级的开源库（如Jsoup）来简化网页解析的过程。

希望上述代码对你有所帮助！