gpt4 book ai didi

hadoop - 如何在不使用 Hadoop 的情况下读取 HDFS 上的 Snappy 压缩文件?

转载 作者:可可西里 更新时间:2023-11-01 14:11:39 35 4
gpt4 key购买 nike

我将文件以 Snappy 压缩格式存储在 HDFS 上。我希望能够在本地 Linux 文件系统上检查这些文件,以确保创建它们的 Hadoop 进程已正确执行。

当我将它们复制到本地并尝试使用 Google 标准库解压缩它们时,它告诉我该文件缺少 Snappy 标识符。当我尝试通过插入一个 Snappy 标识符来解决这个问题时,它弄乱了校验和。

我该怎么做才能读取这些文件而不必编写单独的 Hadoop 程序或通过 Hive 之类的程序传递它?

最佳答案

我终于发现我可以使用以下命令来读取 HDFS 上的 Snappy 压缩文件的内容:

hadoop fs -text /path/filename

在 Cloudera 或 HDP 上使用最新命令:

hdfs dfs -text /path/filename

如果目的是下载文本格式的文件以进行额外的检查和处理,则该命令的输出可以通过管道传输到本地系统上的文件。您也可以使用 head 只查看文件的前几行。

关于hadoop - 如何在不使用 Hadoop 的情况下读取 HDFS 上的 Snappy 压缩文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16674864/

35 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com