gpt4 book ai didi

java - 使用 HTTPClient 获取网页文本

转载 作者:行者123 更新时间:2023-11-30 05:11:34 29 4
gpt4 key购买 nike

我刚刚开始使用 HTTPClient ,我想获取一个网页并从中提取原始文本,减去所有 html 标记。

HTTPClient 可以做到这一点吗?如果是这样,怎么办?或者我应该看看另一个图书馆吗?

例如,如果页面包含

<body><p>para1 test info</p><div><p>more stuff here</p></div>

我想要它输出

para1 test info more stuff here

最佳答案

我建议使用HttpComponents Client (HTTPClient 4) (而不是您链接到的版本 3)。

话虽这么说,它独立于 HTTP 客户端库(还有其他库)。您需要的是将 HTML 转换为纯文本。这可能令人感兴趣:http://www.rgagnon.com/javadetails/java-0424.html

关于java - 使用 HTTPClient 获取网页文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3197856/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com