gpt4 book ai didi

hadoop - 如何处理 inputsplit 的多行记录?

转载 作者:可可西里 更新时间:2023-11-01 14:22:08 27 4
gpt4 key购买 nike

我有一个 100 TB 的文本文件,它有多行记录。而且我们没有给出每条记录占用多少行。一个记录可以是 5 行,另一个可以是 6 行,另一个可以是 4 行。不确定每条记录的行大小是否不同。

所以我不能使用默认的 TextInputFormat,我已经编写了自己的输入格式和自定义记录阅读器,但我的困惑是:发生拆分时,我不确定每个拆分是否包含完整记录。记录的某些部分可以进入 split 1,另一部分进入 split 2。但这是错误的。

那么,您能否建议如何处理这种情况,以便我保证我的完整记录进入单个 InputSplit ?

提前致谢-JE

最佳答案

您需要知道记录是否真的由一些已知的字符序列分隔。

如果您知道这一点,您可以设置 textinputformat.record.delimiter 配置参数来分隔记录。

如果记录不是字符分隔的,您将需要一些额外的逻辑,例如,计算已知数量的字段(如果有已知数量的字段)并将其显示为记录。这通常会使事情变得更加复杂、容易出错并且速度变慢,因为还有大量的文本处理正在进行。

尝试确定记录是否被分隔。也许张贴一些记录的简短示例会有所帮助。

关于hadoop - 如何处理 inputsplit 的多行记录?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16663127/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com