gpt4 book ai didi

html - Jsoup只过滤掉从html到text的一些标签

转载 作者:行者123 更新时间:2023-12-01 04:34:42 27 4
gpt4 key购买 nike

任何jsoup大师可以告诉我一些将html过滤为文本/字符串的建议吗?我尝试过调用 Document 的 text() 。但所有标签/元素都将被过滤。我的目标是过滤一些指定的标签。

即:我的 html 文本如下:

<div>hello<p>world</div>,<table><tr><td>xxx</td></tr>

获取结果:

<div>hello<p>world</div>,xxx 

其中已过滤标签。

最佳答案

我现在无法对此进行测试,但我认为您想要编写一个递归函数,该函数遍历树并根据条件打印每个节点。以下是其外观的示例,但我希望您必须对其进行修改以更准确地满足您的需求。

Document doc = JSoup.parse(page_text);
recursive_print(doc.head());
recursive_print(doc.body());

...

private static Set<String> ignore = new HashSet<String>(){{
add("table");
...
}};
public static void recursive_print(Element el){
if(!ignore.contains(el.className()))
System.out.println(el.html());
for(Element child : el.children())
recursive_print(child);
}

关于html - Jsoup只过滤掉从html到text的一些标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17492396/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com