gpt4 book ai didi

web-crawler - 如何爬取数十亿页面?

转载 作者:行者123 更新时间:2023-12-03 23:59:03 25 4
gpt4 key购买 nike

关闭。这个问题需要更多 focused .它目前不接受答案。












想改进这个问题?更新问题,使其仅关注一个问题 editing this post .

8年前关闭。




Improve this question




是否可以在单个服务器上爬取数十亿个页面?

最佳答案

大规模爬虫(十亿页)是一个难题。以下是一些问题:

  • 网络带宽。假设每页是10Kb,那么你说的一共是
    要获取 10 TB。
  • 网络延迟/慢速服务器/拥塞意味着您无法达到网络连接的理论带宽。对爬虫进行多线程处理只会有很大帮助。
  • 我假设您需要存储从数十亿页中提取的信息。
  • 您的 HTML 解析器需要处理以各种奇怪方式损坏的网页。
  • 为避免陷入循环,您需要检测到您“已经完成此页面”。
  • 页面发生变化,因此您需要重新访问它们。
  • 您需要处理“robots.txt”和其他管理(行为良好的)爬虫行为的约定。
  • 关于web-crawler - 如何爬取数十亿页面?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1935148/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com