gpt4 book ai didi

java - 同时获取多个 HTML 页面的有效方法

转载 作者:可可西里 更新时间:2023-11-01 16:38:36 25 4
gpt4 key购买 nike

所以我正在为某个网站进行网络抓取。问题是:

给定一组 URL(按 100 到 1000 的顺序),我想以高效的方式检索每个 URL 的 HTML,特别是在时间方面。我需要能够每 5 分钟执行 1000 次请求。

这通常意味着使用线程池来执行来自一组尚未请求的 url 的请求。但在着手实现之前,我认为有必要在这里问一问,因为我认为这是进行网页抓取或网页抓取时相当普遍的问题。

有没有我需要的图书馆?

最佳答案

So I'm working on web scraping for a certain website.

您是在抓取单个服务器还是网站是从多个其他主机抓取的?如果是前者,那么您正在抓取的服务器可能不喜欢来自单个 i/p 的太多并发连接。

如果是后者,这实际上是一个关于您应该从一台机器打开多少出站连接的一般性问题。有物理限制,但它非常大。实际上,这取决于客户端的部署位置。连接性越好,它可以容纳的连接数就越多。

您可能想查看一个好的下载管理器的源代码,看看它们是否对出站连接数有限制。

肯定是用户异步 i/o,但您最好还是限制数量。

关于java - 同时获取多个 HTML 页面的有效方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14370984/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com