gpt4 book ai didi

java - 将文件位置作为值传递给 hadoop 映射器?

转载 作者:可可西里 更新时间:2023-11-01 16:21:11 28 4
gpt4 key购买 nike

是否可以将 HDFS 中文件的位置作为值传递给我的映射器,以便我可以在它们上运行可执行文件来处理它们?

最佳答案

是的,您可以在 HDFS 中使用文件名创建文件,并将其用作 map/reduce 作业的输入。您将需要创建自定义拆分器,以便为每个映射器提供多个文件名。默认情况下,您的输入文件将按 block 拆分,并且整个文件列表可能会传递给一个映射器。
另一种解决方案是将您的输入定义为不可拆分。在这种情况下,每个文件都将传递给映射器,您可以自由创建自己的 InputFormat,只要您需要处理文件的逻辑就会使用它——例如调用外部可执行文件。如果您采用这种方式,Hadoop 框架将负责数据局部性。

关于java - 将文件位置作为值传递给 hadoop 映射器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5120407/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com