gpt4 book ai didi

包含索引、数据和 bloom 文件的 Hadoop seq 目录——如何读取?

转载 作者:可可西里 更新时间:2023-11-01 15:40:17 27 4
gpt4 key购买 nike

Hadoop 新手...我有一系列 HDFS 目录,命名约定为 filename.seq。每个目录包含一个索引、数据和 bloom 文件。这些具有二进制内容并且似乎是 SequenceFiles(SEQ 开始标题)。我想知道结构/模式。我阅读的所有内容都是指阅读单个序列文件,所以我不确定如何阅读这些文件或它们是如何生成的。谢谢。

更新:我已经尝试过推荐的工具来流式传输和输出文件上的文本,但都没有用:

hadoop fs -text /path/to/hdfs-filename.seq/data | head

hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.1.2.jar \
-input /path/to/hdfs-filename.seq/data \
-output /tmp/outputfile \
-mapper "/bin/cat" \
-reducer "/bin/wc -l" \
-inputformat SequenceFileAsTextInputFormat

错误是:

ERROR streaming.StreamJob: Job not successful. Error: NA

最佳答案

SEQ header 确认了 hadoop 序列文件。 (我从未见过的一件事是你提到的 bloom 文件。)

典型序列文件的结构/模式是:

  • Header(版本、键类、值类、压缩、压缩代码、元数据)
  • 记录
  • 记录长度
  • key 长度
  • 关键值(value)
  • 每隔大约 100 个字节一个同步标记。

更多详情:

  1. 查看说明 here .
  2. Sequence file readerHow to read hadoop sequential file?

关于包含索引、数据和 bloom 文件的 Hadoop seq 目录——如何读取?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16780387/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com