gpt4 book ai didi

javascript - Java Jsoup : Extract all the text

转载 作者:行者123 更新时间:2023-11-30 14:51:41 24 4
gpt4 key购买 nike

我有以下代码。doc.body.text() 语句不输出样式和脚本标签中的文本。我阅读了 .text() 函数代码,它查找 TextNode 的所有实例。 Jsoup 中的 TextNode 是什么。

为什么脚本文本不包含在 .text() 输出中。

String contex = "<html><body><style>style</style><div>div</div><script>script</script><p>paragraph</p>body</body></html>";
Document doc = Jsoup.parse(contex, "UTF-8");
String text = doc.body().text();
System.out.println("Test text : " + text);

输出:段落主体

最佳答案

为此你需要使用 org.jsoup.select.Elements解析像 <script> 这样的标签.

String contex = "<html><body><style>style</style><div>div</div><script>scripts</script><p>paragraph</p><p>body</p><script>787878</script></body></html>";
Document doc =Jsoup.parse(contex, "UTF-8");
Elements scriptElements = doc.getElementsByTag("script");

for (Element el :scriptElements ){
for (DataNode dn : el.dataNodes()) {
System.out.println(dn.getWholeData());
}
}

OP:

scripts
787878

关于javascript - Java Jsoup : Extract all the text,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48018227/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com