gpt4 book ai didi

java - 如何在不使用 Jsoup 的情况下解析 html 文件?

转载 作者:行者123 更新时间:2023-12-02 01:33:40 25 4
gpt4 key购买 nike

我需要解析一个作业项目的 HTML 文件,因此我无法使用 Jsoup。

我尝试过抓取该文件,但我不知道如何保存我要查找的内容。

这就是我所拥有的:

    FileInputStream fis = new FileInputStream(filename);
InputStreamReader inStream = new InputStreamReader(fis);
BufferedReader reader = new BufferedReader(inStream);

String fileLine;
while((fileLine = reader.readLine()) != null){

String tag = fileLine.substring(fileLine.indexOf("<") + 1,fileLine.indexOf(">"))
}

我需要找到 title> 标签内的信息,但我不知道如何在不获取我不需要的标签的情况下获取该信息,也不知道如何处理没有标签的情况。

我想获取标题标签中的信息并将其转换为我可以使用的字符串。

最佳答案

String fileDataString = Files.readAllLines(Paths.get(fileName), Charset.forName("UTF-8")).stream().collect(Collectors.joining("\n"));

String title = StringUtils.substringBetween(fileDataString, "<title>", "</title>"));

这应该可以获取 <title> 和 </title> 之间的文本

编辑:感谢 BlackPearl 的 Stream<String>.collect(Collectors.joining("\n"));建议

关于java - 如何在不使用 Jsoup 的情况下解析 html 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55579127/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com