gpt4 book ai didi

python - 添加多线程或异步到网络抓取

转载 作者:行者123 更新时间:2023-12-01 01:59:15 29 4
gpt4 key购买 nike

实现多线程以加快网页抓取速度的最佳方法是什么?使用 Pool 是否是一个好的解决方案 - 如果是的话,我将在代码中的何处实现它?

import requests
from multiprocessing import Pool

with open('testing.txt', 'w') as outfile:
results = []
for number in (4,8,5,7,3,10):
url = requests.get('https://www.google.com/' + str(number))
response =(url)
results.append(response.text)
print(results)

outfile.write("\n".join(results))

最佳答案

这可以轻松移动到池中。 Python 带有基于进程和线程的池。使用哪个是一个权衡。进程对于并行运行代码效果更好,但在将结果传递回主程序时成本更高。在您的情况下,您的代码主要等待网址并且具有相对较大的返回对象,因此线程池是有意义的。

我根据 Windows 计算机上的需要将代码移至 if __name__ 内。

import requests
from multiprocessing import Pool
from multiprocessing.pool import ThreadPool

def worker(number):
url = requests.get('https://www.google.com/' + str(number))
return url.text

# put some sort of cap on outstanding requests...
MAX_URL_REQUESTS = 10

if __name__ == "__main__":
numbers = (4,8,5,7,3,10)
with ThreadPool(min(len(numbers), MAX_URL_REQUESTS)) as pool:
with open('testing.txt', 'w') as outfile:
for result in pool.map(worker, numbers, chunksize=1):
outfile.write(result)
outfile.write('\n')

关于python - 添加多线程或异步到网络抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49843439/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com