gpt4 book ai didi

java - 如何使用 HtmlUnit 从网页中提取没有 HTML 标签的文本?

转载 作者:搜寻专家 更新时间:2023-10-31 20:07:11 28 4
gpt4 key购买 nike

我刚刚开始使用 HTMLUnit,我想做的是获取一个网页并从中提取原始文本减去所有 html 标记。

htmlunit 能做到吗?如果是这样,如何?还是我应该查看另一个库?

例如如果页面包含

<body><p>para1 test info</p><div><p>more stuff here</p></div>

我想输出

para1 test info more stuff here

谢谢

最佳答案

http://htmlunit.sourceforge.net/gettingStarted.html表明这确实是可能的。

@Test
public void homePage() throws Exception {
final WebClient webClient = new WebClient();
final HtmlPage page = webClient.getPage("http://htmlunit.sourceforge.net");
assertEquals("HtmlUnit - Welcome to HtmlUnit", page.getTitleText());

final String pageAsXml = page.asXml();
assertTrue(pageAsXml.contains("<body class=\"composite\">"));

final String pageAsText = page.asText();
assertTrue(pageAsText.contains("Support for the HTTP and HTTPS protocols"));
}

注意: page.asText() 命令似乎提供了您所追求的。

Javadoc for asText (从 DomNode 继承到 HtmlPage)

关于java - 如何使用 HtmlUnit 从网页中提取没有 HTML 标签的文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3191672/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com