gpt4 book ai didi

hadoop - Hadoop 中的校验和验证

转载 作者:可可西里 更新时间:2023-11-01 14:11:20 32 4
gpt4 key购买 nike

在通过 Webhdfs 将文件从 Linux 服务器移动到 Hadoop (HDFS) 后,我们是否需要验证校验和?

我想确保 HDFS 上的文件在复制后没有损坏。但是检查校验和有必要吗?

我读到客户端在将数据写入 HDFS 之前执行校验和

有人可以帮助我了解如何确保 Linux 系统上的源文件与使用 webhdfs 的 Hdfs 上摄取的文件相同。

最佳答案

如果您的目标是比较驻留在 HDFS 上的两个文件,我不会使用“hdfs dfs -checksum URI”,因为在我的例子中它会为具有相同内容的文件生成不同的校验和。

在下面的示例中,我比较了两个在不同位置具有相同内容的文件:

老式的 md5sum 方法返回相同的校验和:

$ hdfs dfs -cat /project1/file.txt | md5sum
b9fdea463b1ce46fabc2958fc5f7644a -

$ hdfs dfs -cat /project2/file.txt | md5sum
b9fdea463b1ce46fabc2958fc5f7644a -

但是,对于内容相同的文件,在HDFS上生成的校验和是不同的:

$ hdfs dfs -checksum /project1/file.txt
0000020000000000000000003e50be59553b2ddaf401c575f8df6914

$ hdfs dfs -checksum /project2/file.txt
0000020000000000000000001952d653ccba138f0c4cd4209fbf8e2e

有点令人费解,因为我希望针对相同的内容生成相同的校验和。

关于hadoop - Hadoop 中的校验和验证,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31920033/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com