- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我正在创建一个(表现良好的)网络蜘蛛,我注意到一些服务器导致 Apache HttpClient 给我一个 SocketException——特别是:
java.net.SocketException: Connection reset
导致这个的代码是:
// Execute the request
HttpResponse response;
try {
response = httpclient.execute(httpget); //httpclient is of type HttpClient
} catch (NullPointerException e) {
return;//deep down in apache http sometimes throws a null pointer...
}
对于大多数服务器来说,这很好。但对于其他人,它会立即抛出 SocketException。
导致立即发生 SocketException 的网站示例:http://www.bhphotovideo.com/
效果很好(和大多数网站一样):http://www.google.com/
现在,如您所见,www.bhphotovideo.com 在网络浏览器中加载正常。当我不使用 Apache 的 HTTP 客户端时,它也能正常加载。 (像这样的代码:)
HttpURLConnection c = (HttpURLConnection)url.openConnection();
BufferedInputStream in = new BufferedInputStream(c.getInputStream());
Reader r = new InputStreamReader(in);
int i;
while ((i = r.read()) != -1) {
source.append((char) i);
}
那么,为什么我不直接使用这段代码呢?我需要使用 Apache 的 HTTP 客户端中的一些关键功能。
有谁知道是什么原因导致某些服务器出现这个异常?
目前的研究:
问题出现在我的本地 Mac 开发机器和 AWS EC2 实例上,因此它不是本地防火墙。
似乎错误不是由远程机器引起的,因为异常没有说“由对等”
这个堆栈溢出似乎是相关的java.net.SocketException: Connection reset但答案并没有说明为什么这只会发生在 Apache HTTP 客户端而不是其他方法。
奖励问题:我正在使用该系统进行大量爬行。除了 Apache HTTP Client 之外,通常有更好的 Java 类吗?我发现了很多问题(例如我必须在上面的代码中捕获的 NullPointerException)。似乎 HTTPClient 对服务器通信非常挑剔——比我希望的更挑剔,因为爬虫不能在服务器不正常时中断。
谢谢大家!
老实说,我没有完美的解决方案,但它确实有效,所以这对我来说已经足够了。
正如下面的 oleg 所指出的,Bixo 创建了一个爬虫程序,它自定义 HttpClient 以对服务器更加宽容。为了“解决”这个问题而不是解决它,我在这里使用了 Bixo 提供的 SimpleHttpFetcher:(链接已删除 - 所以认为我是垃圾邮件发送者,所以你必须自己谷歌)
SimpleHttpFetcher fetch = new SimpleHttpFetcher(new UserAgent("botname","contact@yourcompany.com","ENTER URL"));
try {
FetchedResult result = fetch.fetch("ENTER URL");
System.out.println(new String(result.getContent()));
} catch (BaseFetchException e) {
e.printStackTrace();
}
此解决方案的缺点是 Bixo 有很多依赖项——因此这可能不是适合所有人的解决方法。但是,您始终可以通过他们对 DefaultHttpClient 的使用来了解他们如何实例化它以使其正常工作。我决定使用整个类,因为它为我处理了一些有用的事情,例如自动重定向跟踪(并报告最终目标 url)。
感谢大家的帮助。
大家好。所以,我喜欢 Bixo 的工作方式,但不喜欢它有这么多依赖项(包括所有 Hadoop)。因此,我创建了一个大大简化的 Bixo,没有所有依赖项。如果您遇到上述问题,我建议您使用它(如果您想更新它,请随时提出拉取请求!)
最佳答案
首先,回答你的问题:
连接重置是由服务器端的问题引起的。服务器很可能无法解析请求或无法处理它并因此放弃连接而没有返回有效响应。 HttpClient 生成的 HTTP 请求中可能有某些内容导致服务器端逻辑失败,这可能是由于服务器端错误。仅仅因为错误消息没有说“by peer”并不意味着连接重置发生在客户端。
几点说明:
(1) bixo等几种流行的网络爬虫http://openbixo.org/使用 HttpClient 没有重大问题,但他们中的很多人不得不调整 HttpClient 行为以使其对常见的 HTTP 协议(protocol)违规行为更加宽容。默认情况下,HttpClient 对 HTTP 协议(protocol)合规性相当严格。
(2) 为什么不向 HttpClient 项目报告 NPE 问题或您遇到的任何其他问题?
关于java - Apache HTTPClient 抛出 java.net.SocketException : Connection reset for many domains,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5280577/
我们在 Android 网络请求方面遇到问题,更确切地说是随机接收 SocketException: java.net.SocketException: socket is closed at
我有一个大型 Java 应用程序(用于生成某种类型的报告),其中下面的类用于创建数据源。 import org.apache.log4j.Logger; import org.springfram
.htaccess 中的过滤和 SocketException 之间有联系吗?假设在 .htaccess 中对 host.are.everywhere.in.the.net 进行了拒绝如果我从那个被拒
我正在创建一个示例应用程序 (java),它收集信息并将该信息发送到 .net 中内置的 Web 服务。通常它工作正常。两个平台都在完美沟通。 但经过一段时间后,我收到了 (java.net.Sock
java.net.SocketException: Connection reset 之间有什么区别?和 java.net.SocketException: Broken Pipe? 我想弄清楚这两个
我正在使用strapi.io 开源 Node.js headless CMS 这是我的注册页面代码 无效_registerUser()异步{ http.Response response =
这个问题在这里已经有了答案: Official reasons for "Software caused connection abort: socket write error" (14 个答案)
我看过别处,每个网站都告诉我这实际上是互联网连接错误......但我知道这不可能是正确的。 我正在使用 Flutter (dart) 为 iOS(在 Mac 上)编程。我在 iOS 模拟器和实际的 i
我正在尝试使用我的智能手机(不是模拟器)连接到我的带有 SignalR 后端的 Aspnet Core。我将 Cors 添加到 Startup.cs: public void ConfigureSer
如何阻止 SocketException 的发生? 我正在尝试将序列化对象从客户端简单传输到本地计算机上的服务器。 我已经能够使用以下代码的细微变化来发送字符串,但是当我尝试发送对象时 Custome
我正在尝试 Dart,我已经为此苦苦挣扎了很久。来电: runServer() { HttpServer.bind(InternetAddress.ANY_IP_V4, 8080) .then
我开发了一个小型 GUI 应用程序,用于从远程服务器下载日志文件。如果我从 Netbeans IDE 7.2 中启动该应用程序,则它可以正常工作(没有连接问题) 但是如果我将其作为独立的 jar 文件
我有客户端类和服务器类,但是当我运行两个主要方法时,什么都不会发生,当我停止运行时,会发生此异常。为什么??请帮助我,我该如何解决它??? 我的客户端类: public class Client {
using System; using System.Collections.Generic; using System.Web; using System.Web.UI; using System.
我创建了一个接受 TCP 连接的服务器。连接到套接字后,它循环从输入流读取数据。 步骤: 我启动了我的服务器。 启动客户端。 现在我要关闭客户端。 然后服务器给我 SocketException Co
我有一个 java 应用程序在 centos 6.3 和 tomcat 7 作为应用程序容器上运行,目前遇到一个错误:java.io.socketexception 达到数据报套接字的最大数量 我们使
我正在使用 C# UdpClient 类连接到 UDP 网络。有一个 UdpClient 对象,绑定(bind)到一个固定的本地端口,但不绑定(bind)到任何远程端点,因为它需要能够向/从多个不同的
我想知道是否有一种方法可以避免在我无法连接时获取 SocketException 而不是使用 try/catch 捕获 SocketException。 我有这段代码可以检查服务器是否可用: publ
我决定看看网络消息传递等,我的第一个调用端口是 UDP。 我遇到的问题是当我尝试发送消息时。我正在尝试在特定端口上访问 IP,但应用程序错误并出现错误 “SocketException 一个现有的连接
我有一个 Java 服务器/客户端应用程序,它使用 while 循环允许客户端输入直到断开连接。这是在扩展 Thread 并使用 run() 方法的 ClientHandler 类对象中完成的,因此每
我是一名优秀的程序员,十分优秀!