gpt4 book ai didi

TextFile 的 Hadoop 自定义拆分

转载 作者:可可西里 更新时间:2023-11-01 14:45:06 28 4
gpt4 key购买 nike

我有一个相当大的文本文件,我想将其转换为 SequenceFile。不幸的是,该文件由 Python 代码组成,逻辑行跨越多个物理行。例如,
打印“Blah Blah\
...等等等等"
每条逻辑行都以 NEWLINE 结束。有人可以阐明我如何在 Map-Reduce 中生成键值对,其中每个值都是整个逻辑行吗?

最佳答案

我没有找到之前提出的问题,但您只需通过一个简单的 mapreduce 作业迭代您的行并将它们保存到 StringBuilder 中。如果您想从一条新记录开始,请将 StringBuilder 刷新到上下文中。诀窍是将映射器类中的 StringBuilder 设置为字段而不是局部变量。

这里是: Processing paraphragraphs in text files as single records with Hadoop

关于TextFile 的 Hadoop 自定义拆分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6327287/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com