gpt4 book ai didi

python - 更快地下载 ~500 个网页(循环)

转载 作者:太空宇宙 更新时间:2023-11-03 12:51:12 25 4
gpt4 key购买 nike

对于初学者来说,我是 python 的新手,所以我下面的代码可能不是最干净的。对于一个程序,我需要下载大约 500 个网页。 url 存储在一个数组中,该数组由先前的函数填充。下载部分是这样的:

def downloadpages(num):

import urllib
for i in range(0,numPlanets):
urllib.urlretrieve(downloadlist[i], 'webpages/'+names[i]'.htm')

每个文件只有 20KB 左右,但下载所有文件至少需要 10 分钟。下载总组合大小的单个文件应该只需要一两分钟。有什么办法可以加快速度吗?谢谢

编辑:任何感兴趣的人,请按照 http://code.google.com/p/workerpool/wiki/MassDownloader 中的示例进行操作并且使用50个线程,下载时间从原来的10多分钟减少到20秒左右。下载速度随着线程的增加而持续下降,直到大约 60 个线程,之后下载时间再次开始上升。

最佳答案

但是您在这里下载的不是单个文件。您正在下载 500 个单独的页面,每个连接都涉及开销(对于初始连接),加上服务器正在做的任何其他事情(它是否为其他人服务?)。

无论哪种方式,下载 500 x 20kb 都不同于下载该大小的单个文件。

关于python - 更快地下载 ~500 个网页(循环),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6909741/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com