gpt4 book ai didi

python - 从 MongoDB 获取大数据的最佳方法

转载 作者:可可西里 更新时间:2023-11-01 09:54:49 29 4
gpt4 key购买 nike

我有一个数据库,超过 200 万条记录。每条记录都包含一个图像的 URL,我需要将其下载并存储到 AWS S3

与其一次下载一个,然后一次上传一个,有没有更好的方法来处理这个问题?

我正在使用 Python,因此目前使用的是 pymongo。

for item in itemsCursor: 
download_image(item['imageurl')

def download_image(item):
name = 'example.jpg'
response = requests.get(url)
img = Image.open(StringIO(response.content))
img.save('temp.jpg', "JPEG")
s3.meta.client.upload_file('temp.jpg', 'bucket', name)

最佳答案

最好的方法是进行批处理和多线程处理。我已经解决了类似的问题,方法是添加一个带有日期戳或 bool 值的字段,指示特定项目已被处理(或者在这种情况下,可能是指向它在 AWS 上的文件 ID 或 URL 的链接)并编写一个客户端脚本或应用程序,它将挑选一个或一批需要处理的项目并搅拌它们。

当然,确保线程或其他运行该脚本的计算机不会通过使某个值甚至单独的字段指示线程已声明特定记录并正在处理过程中而相互绊倒

关于python - 从 MongoDB 获取大数据的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36875434/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com