gpt4 book ai didi

input - Hadoop 多次读取输入拆分

转载 作者:可可西里 更新时间:2023-11-01 14:59:35 26 4
gpt4 key购买 nike

我需要迭代输入拆分不止一次。我需要这个的原因超出了这个问题的范围。假设我只需要它(一个简短的解释是我需要多次使用输入拆分来填充数据结构,并且拆分可能足够大,以至于在第一次迭代后它无法容纳在内存中)

我想我可以做一些技巧,例如扩展 FileInputFormatRecordReader 多次服务拆分,但我想知道是否有任何在 Hadoop 中执行此操作的“标准”方式。我不知道在 Hadoop 中实现此目的的任何标准方法,但可能我错过了一些东西。

有什么想法吗?

最佳答案

在多次拆分过程中,您想对该数据结构做什么? (查找、更新等)

您是否尝试过将此操作与一些早期的 hadoop 作业(甚至可能是一些 pig 脚本)并行执行?

关于input - Hadoop 多次读取输入拆分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12551454/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com