gpt4 book ai didi

java - jSoup 从 类中获取文本

转载 作者:搜寻专家 更新时间:2023-11-01 01:28:31 27 4
gpt4 key购买 nike

我有以下格式的 HTML 文件的一部分:

<h6 class="uiStreamMessage" data-ft="_____"> 
<span class="messageBody" data-ft="____"> Welcome
</span>
</h6>

在文件中,还有其他span类。但我只想获取所有“messageBody”跨度的文本,这些文本将被插入到数据库中。

我试过:

Elements links = doc.select("span.messageBody");
for (Element link : links) {
message = link.text();
// codes to insert into DB
}

甚至

Elements links = doc.select("h6.uiStreamMessage span.messageBody");

两者都不行。我无法从其他地方找到任何解决方案。请帮忙。

**编辑

我意识到它是 html 文件中的嵌套跨度:

<h6 class="uiStreamMessage" data-ft=""> 
<span class="messageBody" data-ft="">Twisted<a href="http://"><span>http://</span>
<span class="word_break"></span>www.tb.net/</a> Balloons
</span>
</h6>

而且只是有时在“messageBody”跨度内有另一个跨度。如何获取“messageBody”范围内的所有文本?

最佳答案

 String html = "<h6 class='uiStreamMessage' data-ft=''><span class='messageBody' data-ft=''>Twisted<a href='http://'><span>http://</span><span class='word_break'></span>www.tb.net/</a> Balloons</span></h6>";
Document doc = Jsoup.parse(html);
Elements elements = doc.select("h6.uiStreamMessage > span.messageBody");
for (Element e : elements) {
System.out.println("All text:" + e.text());
System.out.println("Only messageBody text:" + e.ownText());
}

对于 facebook 页面 https://www.facebook.com/pages/The-Nanyang-Chronicle/141387533074 :

try {
Document doc = Jsoup.connect("https://www.facebook.com/pages/The-Nanyang-Chronicle/141387533074").timeout(0).get();

Elements elements = doc.select("code.hidden_elem");
for (Element e : elements) {
String eHtml = e.html().replace("<!--", "").replace("-->", "");
Document eWIthoutComment = Jsoup.parse(eHtml);
Elements elem = eWIthoutComment.select("h6.uiStreamMessage >span.messageBody");
for (Element eb : elem) {
System.out.println(eb.text());
}
}
} catch (IOException ex) {
System.err.println("Error:" + ex.getMessage());
}

关于java - jSoup 从 <span> 类中获取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9728854/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com