gpt4 book ai didi

hadoop - 如何在hadoop中处理长度前缀文件

转载 作者:可可西里 更新时间:2023-11-01 14:50:32 24 4
gpt4 key购买 nike

我有一个巨大的 LPF(长度前缀文件)要由 Hadoop 处理。

LPF 文件的格式为:(第 1 条记录的大小,4 字节)(第 1 列的大小,2 字节)(第 1 列)(第 2 列的大小)(第 2 列)………….(第 n 列的大小) (第 n 列)(第二条记录的大小)(第一列的大小)(第一列)…………等等……

但是似乎没有合适的 InputFormat 可以随时读取各个记录,因为没有分隔符来分隔各个记录或列。

输入拆分必须发生在其中一条记录的末尾,这样其他 block 中就不会存在半条记录。否则 Record Reader 必须知道一半记录的结尾,以便它可以将它与另一半结合起来。请建议一些读取和处理LPF文件的方法

最佳答案

为什么您无法拆分此文件?有许多具有可变长度条目的文件格式,它们在 Hadoop 中分割得很好。

查看 InputFormatRecordReader 类,看看是否可以实现自定义版本。如果是这样,这就是您应该做的。

关于hadoop - 如何在hadoop中处理长度前缀文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13678194/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com