gpt4 book ai didi

python - 如何检查亚马逊S3上的两个大文件是否相同?

转载 作者:太空宇宙 更新时间:2023-11-03 19:22:28 26 4
gpt4 key购买 nike

我需要使用 boto 在 amazon S3 上将大文件 (>5GB) 从同一个存储桶移动到同一个存储桶。为此,我需要使用 multipart API,它不使用 etag 的 md5 和。

虽然我认为(只有 98% 确定)我的代码是正确的,但我想在删除原始代码之前验证新副本没有损坏。然而,除了下载两个对象并在本地比较它们之外,我找不到任何方法,这对于 5GB 以上的文件来说是一个相当漫长的过程。

郑重声明,下面是我用 boto 复制大文件的代码,也许这可以帮助某人。如果没有好的解决方案来解决我的问题,也许有人会发现错误并阻止我损坏数据。

import boto

copy_size = 1000000000 #1e9
bucket_name = 'mybucket'
orig_key_name = 'ABigFile'
dest_key_name = 'ABigFile.clone'

s3 = boto.connect_s3()
mybucket = s3.get_bucket(bucket_name)

key = mybucket.get_key(orig_key_name)

mp = mybucket.initiate_multipart_upload(dest_key_name) #keyname

print 'key size: ', key.size

count = 1
start = 0
end = -1

while end < key.size-1:
print 'count: ', count
start = end + 1
end = min( key.size -1 , start + copy_size )
mp.copy_part_from_key(bucket_name, orig_key_name, count , start, end )
count+=1

mp.complete_upload()

此代码仅适用于原始 key 大小 >= 5368709121 字节。

最佳答案

您应该能够计算数据流上的 SHA-1 哈希值(see this SO thread 对于 C++ 代码,这可以为 Python 方法提供提示)。通过将哈希数据流重定向到 /dev/null 的等效项,您应该能够比较两个文件的 SHA-1 哈希值,而无需先将它们下载到本地。

关于python - 如何检查亚马逊S3上的两个大文件是否相同?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9236293/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com