gpt4 book ai didi

python - 需要有关如何加速网络抓取工具的建议

转载 作者:行者123 更新时间:2023-11-28 21:15:29 24 4
gpt4 key购买 nike

我对这个还是很陌生。我正在尝试从网页中提取数据,但是我实现的这种方法似乎有点慢。我使用时间模块来缩小延迟的原因。

requests.get(url)

大部分时间(1-5 秒)

soup = BeautifulSoup(data.content)

持续花费大约 0.15 秒

请求总是这么慢吗?问题是雅虎对来自其服务器的请求进行了速率限制吗?现在,从 yahoo.com/finance 提取单个股票价格大约需要 2-5 秒,请求是主要问题,有什么想法吗?

最佳答案

问题不在于 Reqeusts。如果它很慢,则可能是您的网络连接有问题。正如您正确指出的那样,也可能是雅虎速率限制请求。每个网站都有一个 robots.txt 文件,其中详细说明了有关网络抓取工具和自动访问它们的政策。无论如何都不会花这么长时间,但我会把它归结为网速问题。尝试从您的浏览器访问 URL 并检查加载需要多长时间。

GET 请求是当您想从网站“获取”网页时发送的请求。当您在浏览器中输入 URL 并按下回车键时,会使用相同的 GET。因此,除非 Requests 获取页面所花费的时间与浏览器获取页面所花费的时间之间存在明显差异,否则 Internet 连接速度本身存在问题。

关于python - 需要有关如何加速网络抓取工具的建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30107915/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com