gpt4 book ai didi

python - 是否有比 urlgrabber 更好的库用于在 python 中获取远程 url?

转载 作者:太空宇宙 更新时间:2023-11-03 23:50:15 25 4
gpt4 key购买 nike

我正在编写一个蜘蛛,它需要一个 load_url 函数来为我执行以下操作:

  1. 如果出现临时错误,请重试 URL,不要泄漏异常。
  2. 不泄漏内存或文件句柄
  3. 使用 HTTP-KeepAlive 提高速度(可选)

URLGrabber表面上看起来很棒,但它有麻烦。第一次我遇到了打开太多文件的问题,但我能够通过关闭保持事件来解决这个问题。然后,该函数开始引发 socket.error: [Errno 104] Connection reset by peer。该错误应该已经被捕获,并且可能应该在它所在的位置引发 URLGrabberError。

我正在运行 python 2.6.4。

有谁知道用 URLGrabber 解决这些问题的方法吗?或者知道用不同的库完成我需要的另一种方法?

最佳答案

如果您正在编写网络爬虫/屏幕抓取程序,您可能有兴趣查看专用框架,例如 scrapy .

你可以用很少的代码编写非常复杂的网络爬虫:它负责安排请求的所有细节,并用结果给你回电,让你以任何你需要的方式处理(它基于扭曲但它很好地向您隐藏了所有实现细节)。

关于python - 是否有比 urlgrabber 更好的库用于在 python 中获取远程 url?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2040628/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com