gpt4 book ai didi

java - 尝试为 pig 编写一个自定义加载程序来处理跨越多行的记录,如何确保拆分不会发生在记录中间?

转载 作者:可可西里 更新时间:2023-11-01 14:59:34 24 4
gpt4 key购买 nike

我正在为 pig 编写自定义加载程序。它应该读取可能跨越多行的分隔记录。一切正常,除了有时在记录中间发生 split 并弄乱一切。我知道 RecordReader 和 InputFormat 与文件拆分的位置有关,但无法弄清楚如何让它在我的情况下工作。在我看来,CSVExcelStorage 应该有同样的问题,但我找不到任何代码来处理这个问题。

最佳答案

CSVExcelStorage 的工作假设是没有任何嵌入的换行符,因此没有处理它们的代码。

关于 RecordReader 是这里的罪魁祸首,你是对的。您需要编写一个新的记录阅读器类来理解您的数据,从而理解哪些新行字符是分割位置的候选者以及哪些新行字符只是数据的一部分。编写新的记录类后,您将需要一个新的 InputFormatType 来使用该记录读取器类。

关于java - 尝试为 pig 编写一个自定义加载程序来处理跨越多行的记录,如何确保拆分不会发生在记录中间?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12679338/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com