- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在编写一个多线程 Java 网络爬虫。根据我对网络的了解,当用户加载网页时,浏览器会请求第一个文档(例如,index.html),并且当它收到 HTML 时,它会找到需要包含的其他资源(图像、CSS、JS) ) 并同时请求这些资源。
我的爬虫只请求原始文档。出于某种原因,我无法让它每 5 秒抓取超过 2 到 5 页。我正在为我创建的每个 HttpURLConnection 创建一个新线程。看起来我应该能够至少每秒抓取 20-40 页。如果我尝试启动 100 个线程,我会疯狂地收到 I/O 异常。知道发生了什么事吗?
最佳答案
查看您的代码是个好主意,因为您可能做了一些轻微的错误并破坏了您的爬虫,但根据一般经验,执行异步 IO 远优于 HttpURLConnection 提供的阻塞 IO。异步 IO 允许您在单个线程中处理所有处理,所有实际 IO 均由操作系统在其自己的时间完成。
要通过异步 IO 很好地实现 HTTP 协议(protocol),请查看 Apache's HTTP core .查看此类客户端的示例 here .
关于java - 我应该能够同时打开多少个 Java HttpURLConnection?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1381804/
我正在使用 Java 编写一个时钟程序,该程序能够“滴答作响”,但它存在问题。我认为它与 getter 和 setter 或 toString() 方法有关。 计数器类 package clock;
const Index = () => { // Ref Links const frefLinks = { 1: useRef(1), 2: useRef(2), 3: useRef(3
所以我读了here不能 pickle 装饰函数。确实: import multiprocessing as mp def deco(f): def wrapper(*args, **kwarg
我在go1.11.2 linux/amd64 版本。当包godog使用 go get github.com/DATA-DOG/godog/ 安装,godog 可执行文件在 $GOPATH/bin/中创
如何正确压缩字符串,以便 PHP 能够解压缩? 我试过这个: public static byte[] compress(String string) throws IOException {
我们这里的问题是表明 在测试中使用 Kleene 代数。 在 b 的值由 p 保留的情况下,我们有交换条件 bp = pb;两个程序之间的等价性简化为等式 在 b 的值不被 p 保留的情况下,我们有交
我有一个与我的网络相关的非常奇怪的问题,我在具有多个接口(interface)的 VirtualBox 上安装了 RDO Grizzly OpenStack。 虚拟盒子: eth0 - managem
我正在尝试使用 Passport.js授权谷歌OAuth2在 Node.js .我整个星期都在尝试让它工作,但不知道为什么它不工作,所以现在我求助于 stack 寻求一些潜在的帮助。我已经尝试了所有在
我是一名优秀的程序员,十分优秀!