gpt4 book ai didi

c# - Abot 网络爬虫性能

转载 作者:行者123 更新时间:2023-11-30 15:21:14 25 4
gpt4 key购买 nike

我构建了一个 robots.txt 爬虫,它从机器人中提取 url,然后在页面完成后加载页面并进行一些后期处理。这一切发生得非常快,我每秒可以从 5 页中提取信息。

如果网站没有 robots.txt,我会改用 Abot Web Crawler。问题是 Abot 比直接的 robots.txt 爬虫要慢得多。似乎当 Abot 访问包含大量链接的页面时,它会非常缓慢地安排每个链接。如上所述,有些页面需要 20 多秒来排队并运行后期处理。

我使用配置为不抓取外部页面的 PoliteWebCrawler。我应该改为同时抓取多个网站,还是有其他更快的 Abot 解决方案?

谢谢!

最佳答案

为 Abot 添加了一个补丁来修复此类问题。应该在 nuget 版本 1.5.1.42 中可用。参见 issue #134更多细节。你能证实这解决了你的问题吗?

关于c# - Abot 网络爬虫性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38045880/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com