gpt4 book ai didi

java - 使用 jsoup 将 HTML 解析为格式化的纯文本

转载 作者:太空宇宙 更新时间:2023-11-04 12:50:05 25 4
gpt4 key购买 nike

我正在开发一个 Maven 项目,该项目允许我解析网站中的 html 数据。我能够使用下面的代码解析它:

public void parseData(){
String url = "http://stackoverflow.com/help/on-topic";
try {
Document doc = Jsoup.connect(url).get();
Element essay = doc.select("div.col-section").first();
String essayText = essay.text();
jTextAreaAdem.setText(essayText);


} catch (IOException ex) {
Logger.getLogger(formAdem.class.getName()).log(Level.SEVERE, null, ex);
}
}

到目前为止我没有遇到任何问题。我可以解析html数据。我使用 jsoup 中的 select 方法并使用“div.col-section”检索数据,这意味着我正在寻找类为 col-section 的 div 元素。我想在文本区域中打印数据。尽管网站上的真实数据不止一个段落,但我得到的结果是一大段。那么如何像网站上那样解析数据呢?

最佳答案

它没有格式化的原因是格式化是在 HTML 中 - 带有 <p><ol>标签等调用.text() block 元素上的格式会丢失。

Jsoup 有一个例子 HTML to Plain Text convertor您可以通过提供 div 元素作为焦点来适应您的需求。

或者,您也可以选择 "div.col-section > *" ,并迭代每个元素,并用换行符打印出该文本。

关于java - 使用 jsoup 将 HTML 解析为格式化的纯文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35916955/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com