gpt4 book ai didi

hadoop - 限制 hadoop 中的映射器和缩减器

转载 作者:可可西里 更新时间:2023-11-01 16:09:04 25 4
gpt4 key购买 nike

我正在从事一个需要限制映射器和缩减器访问的安全项目。
以wordcount为例,我有5个文件。我将文件中的 3 个分组为第 1 组,将剩余的 2 个文件分组为第 2 组。所有第 1 组文件都应该转到集群中的同一个节点,所有第 2 组文件都应该转到同一个节点。我怎样才能做到这一点?

我开始查看源代码,但不知道从哪里开始。有关如何执行此操作或从哪里开始的任何建议都会非常有帮助。

最佳答案

你可以使用 MultipleInputs .

对于第 1 组,您可以执行类似的操作。

MultipleInputs.addInputPath(job,'file/path',FileInputFormatClass,Mapper1.class);
MultipleInputs.addInputPath(job,'file1/path',File1InputFormatClass,Mapper1.class);
MultipleInputs.addInputPath(job,'file2/path',File2InputFormatClass,Mapper1.class);

对于第 2 组

MultipleInputs.addInputPath(job,'file3/path',File3InputFormatClass,Mapper2.class);
MultipleInputs.addInputPath(job,'file4/path',File4InputFormatClass,Mapper2.class);

关于hadoop - 限制 hadoop 中的映射器和缩减器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32921055/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com