gpt4 book ai didi

java - JSoup- 按原样获取标签之间的文本

转载 作者:塔克拉玛干 更新时间:2023-11-01 23:07:17 26 4
gpt4 key购买 nike

场景:我使用Apache TikaDOCX 文件中获取XHTML。我需要解析此 XHTML 以获取特定标签(例如 div 或 p 标签)之间的文本。为此,我使用 Jsoup 获取标签之间的文本。

问题: XHTML 最初有这样的文本:

some text [tab-space][tab-space] other text.

但是使用 Jsoup 我得到了这个:

some text other text.

因此缺少标记空间,但我需要按原样获取文本,即包括 tag-spaces。是否可以使用 Jsoup 或是否有任何其他 Java 库来执行此操作?

最佳答案

对 TextNodes 使用 getWholeText 方法:https://jsoup.org/apidocs/org/jsoup/nodes/TextNode.html#getWholeText--

final Document doc = Jsoup.parse(new File(".\\source.xhtml"), "UTF-8");

for (Element result : doc.select("div")) {
final String text = ((TextNode) result.childNode(0)).getWholeText();
System.out.println(text);
}

关于java - JSoup- 按原样获取标签之间的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37326532/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com