gpt4 book ai didi

hadoop - HDFS 文件比较

转载 作者:可可西里 更新时间:2023-11-01 14:15:41 48 4
gpt4 key购买 nike

由于没有diff,我如何比较两个 HDFS 文件?

我正在考虑使用 Hive 表并从 HDFS 加载数据,然后在 2 个表上使用连接语句。有没有更好的方法?

最佳答案

hadoop 没有提供 diff 命令,但您实际上可以在 shell 中使用 diff 命令使用重定向:

diff <(hadoop fs -cat /path/to/file) <(hadoop fs -cat /path/to/file2)

如果您只想知道 2 个文件是否相同而不关心差异,我会建议另一种基于校验和的方法:您可以获取两个文件的校验和,然后比较它们。我认为 Hadoop 不需要生成校验和,因为它们已经存储,所以它应该很快,但我可能是错的。我认为没有命令行选项,但您可以使用 Java API 轻松完成此操作并创建一个小应用程序:

FileSystem fs = FileSystem.get(conf);
chksum1 = fs.getFileChecksum(new Path("/path/to/file"));
chksum2 = fs.getFileChecksum(new Path("/path/to/file2"));
return chksum1 == chksum2;

关于hadoop - HDFS 文件比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14488779/

48 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com