java - Hadoop - 映射器的构造函数参数-6ren

java - Hadoop - 映射器的构造函数参数

转载作者：可可西里更新时间：2023-11-01 14:15:52

24

4

在 Hadoop 中有什么方法可以将构造函数参数传递给 Mapper？可能是通过一些包装了 Job 创建的库？

这是我的场景:

public class HadoopTest {

    // Extractor turns a line into a "feature"
    public static interface Extractor {
        public String extract(String s);
    }

    // A concrete Extractor, configurable with a constructor parameter
    public static class PrefixExtractor implements Extractor {
        private int endIndex;

        public PrefixExtractor(int endIndex) { this.endIndex = endIndex; }

        public String extract(String s) { return s.substring(0, this.endIndex); }
    }

    public static class Map extends Mapper<Object, Text, Text, Text> {
        private Extractor extractor;

        // Constructor configures the extractor
        public Map(Extractor extractor) { this.extractor = extractor; }

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            String feature = extractor.extract(value.toString());
            context.write(new Text(feature), new Text(value.toString()));
        }
    }

    public static class Reduce extends Reducer<Text, Text, Text, Text> {
        public void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
            for (Text val : values) context.write(key, val);
        }
    }

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = new Job(conf, "test");
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        job.setMapperClass(Map.class);
        job.setReducerClass(Reduce.class);
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        job.waitForCompletion(true);
    }
}

应该清楚的是，由于 Mapper 仅作为类引用 (Map.class) 提供给 Configuration，Hadoop 无法传递构造函数参数并配置特定的提取器。

有一些 Hadoop 包装框架，如 Scoobi、Crunch、Scrunch(可能还有更多我不知道的框架)似乎具有此功能，但我不知道它们是如何实现的。 编辑: 在与 Scoobi 进行更多合作后，我发现我在这方面有部分错误。如果您在“映射器”中使用外部定义的对象，Scoobi 要求它是可序列化的，如果不是，则会在运行时提示。所以也许正确的方法只是让我的 Extractor 可序列化并在 Mapper 的设置方法中反序列化它...

此外，我实际上在 Scala 工作，因此绝对欢迎基于 Scala 的解决方案(如果不鼓励的话!)

最佳答案

我建议通过您正在创建的 Configuration 对象告诉您的映射器要使用哪个提取器。映射器在其 setup 方法 (context.getConfiguration()) 中接收配置。似乎您不能将对象放入配置中，因为它通常是从 XML 文件或命令行构造的，但您可以设置一个枚举值并让映射器自己构造其提取器。创建映射器后对其进行自定义不是很好，但这就是我解释 API 的方式。

关于java - Hadoop - 映射器的构造函数参数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8141606/

24

4

0

文章推荐： hadoop - 使用 Hadoop 进行相似性连接

文章推荐： hadoop - 'distcp' 和 'distcp -update' 之间的区别？

文章推荐： logging - 将 Hadoop 中的日志记录级别设置为 WARN

方案说明(构造)
谁能解释一下原因: (define a (lambda() (cons a #f))) (car (a)) ==> procedure ((car (a))) ==> (procedure . #f)
Python "here, . . . where"构造
这是 PyBrain 网站的摘录。我了解大部分正在发生的事情，但是一行让我完全难住了。我以前从未在 python 代码中看到过这样的东西。这是整个循环，对于上下文: for c in [0,
groovy - 构造/销毁自定义Gradle任务
我是gradle / groovy的新手。我想创建将做一些事情的自定义任务。我的第一个问题是任务完成时该如何做？我可以覆盖doFirst / doLast闭包吗？也许我可以重写某些在开始和结束时都会执
c# 构造
我刚刚开始评估 MS 企业库。他们使用以下指令来获取实例: var customerDb = EnterpriseLibraryContainer.Current.GetInstance("C
ansible if else 构造
这是我的 if else Ansible 逻辑.. - name: Check certs exist stat: path=/etc/letsencrypt/live/{{ rootDomain
Python 构造 - 解析可变数量的可变长度记录
我正在使用construct 2.8 对一些失传已久的 Pascal 程序创建的一些文件的 header 进行逆向工程。 header 由许多不同的记录组成，其中一些是可选的，我不确定顺序是否固定。
构造 char 指针数组
我在将 getchar() 的输入放入 char *arr[] 数组时遇到问题。我这样做的原因是因为输入数据(将是一个带有命令行参数的文件)将存储在一个 char 指针数组中以传递给 execvp 函
c# - 构造/制作通用类型并将类型约束转换为结构作为基础类型的约束
通常我们不能约束类型参数 T派生自密封类型(例如 struct 类型)。这将毫无意义，因为只有一种类型适合，因此不需要泛型。所以约束如下: where T : string 或: where T :
Java - REGEX 构造
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 9 年前。 Improve th
C++构造、解构和指向类对象的机制
#include using namespace std; class A { private: int m_i; friend int main(int argc, char cons
javascript - 如何在javascript中使用 "with"构造？
这个问题在这里已经有了答案: Are there legitimate uses for JavaScript's "with" statement? (33 个答案) 关闭 9 年前。我有这个代
Bash 构造 $(< 文件)
在this answer我看到了下一个 Bash 结构。 yes "$(< file.txt)" 什么意思 "$(< file.txt)" ? 我明白了命令替换 - $(command)用命令的结
c++ - If Else 构造
if (a == 1) //do something else if (a == 2) //do something else if (a == 3) //do somethi
c# - ListViewItem 构造
关于构造的快速简单的问题。我有以下用于将项目添加到 ListView 的代码。 ListViewItem item = new ListViewItem(); item.Text = file; i
具有给定内存的c++ vector 构造
我想使用 std::vector 来控制给定的内存。首先，我很确定这不是好的做法，但好奇心占了上风，无论如何我都想知道如何做到这一点。我遇到的问题是这样的方法: vector getRow(unsi
连接字符串中的 Javascript 构造
下面显示了一段简单的javascript: var mystring = ("random","ignored","text","h") + ("ello world") 这个字符串会生成 hello
java - 新对象 { } 构造
在 Java 中，创建对象的标准方法是使用 MyClass name = new MyClass(); 我也经常看到构造 new MyClass() { /*stuff goes in here*/
c++ - 有没有办法在编译时从 initializer_list 构造？
我正在编写 C++ ndarray 类。我需要动态大小和编译时大小已知的数组(分别分配自由存储和分配堆栈)。我想支持从嵌套的 std::initializer_list 进行初始化。动态大小的没问题
visual-studio-2008 - () => 构造
我正在将一个项目从 Visual Studio 2005 转换为 Visual Studio 2008，并提出了上述结构。 using Castle.Core.Resource; using Cast
.net - 依赖注入(inject) - 构造
我想知道我在这里的想法是否正确，我主要针对接口(interface)进行编程，所以我想知道下面的类是否应该通过 DI 注入(inject)，或者我应该自己实例化一个类... 注意:这些服务保存在我的核

首页

博学

6Ren·AI

商城

java - Hadoop - 映射器的构造函数参数