gpt4 book ai didi

html - 使用 JSoup 删除 HTML 标签之间的文本

转载 作者:太空狗 更新时间:2023-10-29 15:33:24 31 4
gpt4 key购买 nike

在某些 HTML 清理的情况下,我想保留标签之间的文本(这是 Jsoup 的默认行为),在某些情况下,我想删除文本和 HTML 标签。有人可以阐明我如何使用 Jsoup 删除 HTML 标记之间包含的文本吗?

最佳答案

Cleaner将始终删除标签并保留文本。如果您需要删除元素(即标签和文本/嵌套元素),您可以预解析 HTML,使用 remove() 删除元素。或 empty() ,然后通过清洁器运行结果。

例如:

String html = "Clean <div>Text dropped</div>";
Document doc = Jsoup.parse(html);
doc.select("div").remove();

// if not removed, the cleaner will drop the <div> but leave the inner text
String clean = Jsoup.clean(doc.body().html(), Whitelist.basic());

如果您使用的是 JSoup 1.14.1+,则使用 Safelist而不是 Whitelist ,因为白名单已被弃用,并将在 1.15.1 中删除。

String clean = Jsoup.clean(doc.body().html(), Safelist.basic());

关于html - 使用 JSoup 删除 HTML 标签之间的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6738762/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com