gpt4 book ai didi

python - 使用Python进行Hadoop流传输:跟踪行号

转载 作者:行者123 更新时间:2023-12-02 21:51:33 25 4
gpt4 key购买 nike

我正在尝试执行应该是一个简单的任务:我需要使用Hadoop流与Python将文本文件转换为大写。

我想通过使用TextInputFormat来做到这一点,该文件将文件位置键和文本值传递给映射器。问题是Hadoop流automatically discards the file position keys,这是保留文档顺序所必需的。

如何保留输入到映射器的文件位置信息?还是有更好的方法使用Hadoop流将文档转换为大写?

谢谢。

最佳答案

如果您的工作只是将单个文件大写,那么Hadoop并不会为您提供将文件流式传输到单个计算机,执行大写然后将内容写回到HDFS的任何功能。即使有一个巨大的文件(例如1TB),您仍然需要将所有内容都放到一个reducer中,这样当将它写回到HDFS时,它会存储在一个连续的文件中。

在这种情况下,我会将您的流作业配置为每个文件有一个映射器(将最小和最大拆分大小设置为大于文件本身的最大值),然后运行仅映射作业。

关于python - 使用Python进行Hadoop流传输:跟踪行号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20303448/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com