gpt4 book ai didi

amazon-s3 - 从 S3 下载大量文件

转载 作者:行者123 更新时间:2023-12-03 00:00:43 25 4
gpt4 key购买 nike

我想为包含约 200 万个文件的 s3 存储桶设置灾难恢复副本。

这不必自动化,因为我们相信 Amazon 对高可靠性的 promise ,我们已启用版本控制并设置 MFA 来删除存储桶本身。

所以我只想定期(手动)下载存储桶的内容以保留离线副本。

我尝试了一些 S3 客户端,但大多数在处理如此大的文件夹时都会挂起。

是否有适合这项工作的工具,或者我们是否必须求助于亚马逊的数据导出服务(每次需要离线备份时,我们都必须向他们发送 USB 驱动器)。

提前感谢您的建议!

最佳答案

处理包含数百万个文件的存储桶可能非常具有挑战性,除非您的文件名有某种“结构”。不幸的是,这对任何 GUI 工具都没有帮助,因此您只能实现自己的解决方案。例如:

  1. 如果您的所有文件均以日期开头,您可以在 Get Bucket 中使用标记 header 。请求仅返回早于特定日期的文件。

  2. 如果您的文件排列在“虚拟”文件夹中,您可以使用前缀分隔符 header 来处理每个文件夹分别地。 (考虑并行执行此操作以加快速度)

即使你没有结构,一切也不会丢失。 S3 客户端挂起是因为它们试图将整个 200 万个文件列表保存在内存中。您可以一次下载列出 1000 个文件的对象,但将其保存到文件/数据库等中。获取全部 200 万个文件需要很长时间,但完成后只需循环浏览已保存的列表并根据需要进行下载。

更好的是,如果您能够在将文件添加到 S3 时在数据库中对其进行“索引”,则可以使用它来确定要下载哪些文件。

关于amazon-s3 - 从 S3 下载大量文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8654317/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com