gpt4 book ai didi

java - 在什么情况下网络爬虫可能会受到 CPU 限制而不是 IO 限制?

转载 作者:行者123 更新时间:2023-11-28 01:06:01 29 4
gpt4 key购买 nike

似乎典型的爬虫只是下载少量页面或做很少的处理来决定下载哪些页面是 IO 限制的。

我很好奇,相关数据结构的大小、存储页面的数量、索引要求等的数量级估计可能实际上使 CPU 成为瓶颈?

例如,应用程序可能希望根据在页面上找到的链接来计算一些概率,以便决定下一个要抓取的页面。此函数采用 O(noOfLinks) 并被评估 N 次(在每一步)...其中 N 是我想要的页数在一轮爬行中下载。我必须对这些概率进行排序和跟踪,并且我必须跟踪最终将被转储到磁盘中的 O(N) 列表和索引一个搜索引擎。 N 变得足够大并且存储页面和操作链接变得足够昂贵以与 IO 响应竞争是不可能的(假设一台机器)?

最佳答案

仅当您在每个页面上进行大量处理时。例如,如果您正在运行某种 AI 来尝试猜测页面的语义。

即使您的爬虫在非常快的连接上运行,创建连接的开销仍然存在,而且您也可能受到目标机器带宽的限制

关于java - 在什么情况下网络爬虫可能会受到 CPU 限制而不是 IO 限制?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6079020/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com