gpt4 book ai didi

java - 我应该能够同时打开多少个 Java HttpURLConnection?

转载 作者:行者123 更新时间:2023-11-30 12:00:56 29 4
gpt4 key购买 nike

我正在编写一个多线程 Java 网络爬虫。根据我对网络的了解,当用户加载网页时,浏览器会请求第一个文档(例如,index.html),并且当它收到 HTML 时,它会找到需要包含的其他资源(图像、CSS、JS) ) 并同时请求这些资源。

我的爬虫只请求原始文档。出于某种原因,我无法让它每 5 秒抓取超过 2 到 5 页。我正在为我创建的每个 HttpURLConnection 创建一个新线程。看起来我应该能够至少每秒抓取 20-40 页。如果我尝试启动 100 个线程,我会疯狂地收到 I/O 异常。知道发生了什么事吗?

最佳答案

查看您的代码是个好主意,因为您可能做了一些轻微的错误并破坏了您的爬虫,但根据一般经验,执行异步 IO 远优于 HttpURLConnection 提供的阻塞 IO。异步 IO 允许您在单个线程中处理所有处理,所有实际 IO 均由操作系统在其自己的时间完成。

要通过异步 IO 很好地实现 HTTP 协议(protocol),请查看 Apache's HTTP core .查看此类客户端的示例 here .

关于java - 我应该能够同时打开多少个 Java HttpURLConnection?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1381804/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com