gpt4 book ai didi

java - 如何从 servlet 获取给定 URL 的来源?

转载 作者:太空狗 更新时间:2023-10-29 16:52:00 25 4
gpt4 key购买 nike

我想从我的 servlet 中读取给定 URL 的源代码(HTML 标签)。

例如,网址为http://www.google.com我的 servlet 需要读取 HTML 源代码。我需要这个的原因是,我的 Web 应用程序将读取其他网页并获取有用的内容并对其进行处理。

比方说,我的应用程序显示了一个城市中某一类别的商店列表。该列表的生成方式是,我的 Web 应用程序 (servlet) 遍历显示各种商店和阅读内容的给定网页。使用源代码,我的 servlet 会过滤源代码并获取有用的详细信息。最后创建列表(因为我的 servlet 无法访问给定 URL 的 Web 应用程序数据库)。

任何知道任何解决方案? (特别是我需要在 servlet 中这样做)如果您认为还有另一种从另一个站点获取详细信息的最佳方法,请告诉我。

谢谢

最佳答案

您不需要 servlet 从远程服务器读取数据。你可以只使用 java.net.URLjava.net.URLConnection从 HTTP 服务器读取远程内容的类。例如,

InputStream input = (InputStream) new URL("http://www.google.com").getContent();

关于java - 如何从 servlet 获取给定 URL 的来源?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7138296/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com