gpt4 book ai didi

amazon-web-services - 使用 Amazon 的 Date Pipeline 备份 S3 bucket——如何跳过现有文件并避免不必要的覆盖?

转载 作者:行者123 更新时间:2023-12-02 01:17:55 25 4
gpt4 key购买 nike

我正在使用 Amazon 的 Date Pipeline 将 S3 存储桶复制到另一个存储桶。这是一个非常简单的设置,每晚运行。然而,每次后续运行都会一遍又一遍地复制相同的文件——我宁愿它只是跳过现有文件并只复制新文件,因为这个备份将来会变得非常大。有办法吗??

最佳答案

查看this thread ,似乎无法使用默认的 CopyActivity 进行同步:

You can definitely use Data Pipeline to copy one S3 directory to another, with the caveat that, if you use the CopyActivity, it'll be a fully copy, not an rsync. So if you're operating on a large number of files where only a small fraction have changed, the CopyActivity wouldn't be the most efficient way to do it.

You could also write your own logic to perform the diff and then only sync that, and use the CommandRunnerActivity to schedule and manage it.

我认为它们实际上是指 ShellCommandActivity这允许您安排 shell 命令运行。

我无法为您提供确切的配置示例,但这是您可以使用常规 cron 作业运行以同步两个存储桶的命令示例:aws s3 sync s3://source_bucket s3://target_bucket.

应该可以用 ShellCommandActivity 来运行它。也检查 ShellCommandActivity in AWS Data Pipeline ,以及对答案的评论 here .

更新:@trevorhinesley 对最终解决方案的评论(管道启动的默认实例使用一些旧的 aws cli,其中没有 sync 命令):

对于遇到此问题的任何人,我必须启动一个 EC2 实例,然后复制它使用的 AMI ID(当您在 EC2 下的“实例”菜单中选择它时,它位于实例列表下方的信息中)。我在数据管道中使用了那个图像 ID,它修复了它!

关于amazon-web-services - 使用 Amazon 的 Date Pipeline 备份 S3 bucket——如何跳过现有文件并避免不必要的覆盖?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41721234/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com