gpt4 book ai didi

gsutil - 加速 s3 和 gs 之间的 gsutil rsync

转载 作者:行者123 更新时间:2023-12-04 16:08:30 34 4
gpt4 key购买 nike

我想在 s3 和 gs 之间同步一个包含 100M 文件的存储桶。我有一个 c3.8xlarge 实例并快速试运行:

$ time gsutil -m rsync -r -n s3://s3-bucket/ gs://gs-bucket/
Building synchronization state...
At source listing 10000...
^C

real 4m11.946s
user 0m0.560s
sys 0m0.268s

10k 文件大约需要 4 分钟。按照这个速度,仅计算同步状态就需要 27 天。我可以做些什么来加快速度吗?

我还注意到[并修复]了以下警告: 警告:当修改时间不是时,gsutil rsync 使用散列 可在 来源和目的地。您的 crcmod 安装未使用 模块的 C 扩展,所以校验和运行会很慢。如果这是你的 自更新 gsutil 以来的第一次 rsync,此 rsync 可能比 通常。如需安装扩展的帮助,请参阅“gsutil help crcmod”。

是计算文件哈希还是我只是在等待列出 100M 文件?

最佳答案

在两个桶之间设置同步过程时,第一次迭代将是最慢的,因为它需要将源桶中的所有数据复制到目标桶中。对于跨提供者同步,由于每个对象需要两个单独的连接,这进一步减慢了速度——一个将数据从源拉到主机,另一个将数据从主机传送到目标(gsutil 指的是对此称为“菊花链”模式)。

对于存储桶之间的初始同步(以及可能的后续同步),您最好使用 GCS's transfer service ,它允许 GCS 代表您复制对象。这往往比在一台运行 gsutil 的机器上完成所有工作要快得多。

至于警告,如果您没有安装 crcmod C 扩展,则它是在命令执行开始时打印的一般警告,无论目标中存在什么。

关于gsutil - 加速 s3 和 gs 之间的 gsutil rsync,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47338269/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com