gpt4 book ai didi

使用 HTMLUnit 进行网络抓取时连接被拒绝

转载 作者:行者123 更新时间:2023-12-03 16:44:55 25 4
gpt4 key购买 nike

我正在尝试构建一个 Java 应用程序以使用 HTMLUnit 抓取网站。提取一些数据后,应用程序遇到以下异常 -java.lang.RuntimeException:org.apache.http.conn.HttpHostConnectException:拒绝连接到 siteURL。

如果我再次运行应用程序,它能够在失败并出现相同异常之前再次提取一些数据。可能服务器看到来自同一客户端 IP 的大量请求并拒绝连接请求。

此外,当应用程序遇到此问题时,我可以使用浏览器连接到该站点。

我该如何克服这个问题?在网络抓取应用程序中,如何处理和解决此类问题?

最佳答案

这就是我调试此类问题的方式:

下载Fiddler

默认情况下,fiddler 在端口 8888 上监听,您所要做的就是将 webClient 配置为使用 fiddler 作为代理,然后可以在 fiddler 中看到(分析、修改和重新发送)所有发送的请求。

    client.getOptions().setProxyConfig(new ProxyConfig("127.0.0.1", 8888));

根据我以前的经验,我可以说目标网站会在一段时间后阻塞,您可以尝试添加暂停或轮换代理和用户代理。您也可以尝试清除 cookie。

关于使用 HTMLUnit 进行网络抓取时连接被拒绝,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14058972/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com