gpt4 book ai didi

apache - 如何检查缺少完整模式信息的 Hadoop SequenceFile?

转载 作者:可可西里 更新时间:2023-11-01 14:15:37 27 4
gpt4 key购买 nike

我有一个来自客户的压缩 Hadoop 序列文件,我想检查一下。我目前没有完整的架构信息(我正在单独处理)。

但在此期间(并希望有一个通用解决方案),我有哪些检查文件的选项?

我找到了一个工具 forqlift:http://www.exmachinatech.net/01/forqlift/

并尝试在文件上使用“forqlift list”。它提示说它无法为包含的自定义子类 Writables 加载类。所以我需要追踪这些实现。

但同时还有其他选择吗?我知道我很可能无法提取数据,但是是否有一些工具可以扫描多少键值以及什么类型?

最佳答案

从外壳:

$ hdfs dfs -text /user/hive/warehouse/table_seq/000000_0

或者直接从 hive(这对于小文件来说要快得多,因为它运行在一个已经启动的 JVM 中)

hive> dfs -text /user/hive/warehouse/table_seq/000000_0

适用于序列文件。

关于apache - 如何检查缺少完整模式信息的 Hadoop SequenceFile?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7560515/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com