hadoop - 映射器与DataStax Cassandra 1.2.1一起无限发展-6ren

hadoop - 映射器与DataStax Cassandra 1.2.1一起无限发展

转载作者：行者123 更新时间：2023-12-02 21:54:12

28

4

我的cassandra scehma列系列中只有一行。运行mapreduce时，映射器会不断读取同一行。因此，映射器进入无穷大且 reducer 卡住了。

这些是使用的配置

conf.set("fs.default.name", "hdfs://28.151.181.107:9000");
    conf.set("mapred.job.tracker", "28.151.181.107:9001");
    conf.setJar("C:\\hadoop-test\\demo\\target\\demo-0.0.1-SNAPSHOT.jar");

    conf.setMapperClass(TokenizerMapper.class);
    conf.setCombinerClass(ReducerToFilesystem.class);
    conf.setReducerClass(ReducerToFilesystem.class);
    conf.setOutputKeyClass(Text.class);
    conf.setOutputValueClass(Text.class);
    conf.setMapOutputKeyClass(Text.class);
    conf.setMapOutputValueClass(Text.class);

    FileOutputFormat.setOutputPath(conf, new Path(resultFileName));

    conf.setInputFormat(ColumnFamilyInputFormat.class);

    ConfigHelper.setInputRpcPort(conf, PORT + "");
    ConfigHelper.setInputInitialAddress(conf, HOST);
    ConfigHelper.setInputPartitioner(conf, "RandomPartitioner");
    ConfigHelper.setInputColumnFamily(conf, KEY_SPACE, COLUMN_FAMILY,true);
    SlicePredicate predicate = new SlicePredicate();
    SliceRange sliceRange = new SliceRange();
    sliceRange.setStart(new byte[0]);
    sliceRange.setFinish(new byte[0]);
    predicate.setSlice_range(sliceRange);
    ConfigHelper.setInputSlicePredicate(conf, predicate);
    ConfigHelper.setOutputInitialAddress(conf, HOST);
    ConfigHelper.setOutputPartitioner(conf, "RandomPartitioner");

和Mapper＆Reducer是

public void map(ByteBuffer key, SortedMap<ByteBuffer, IColumn> columns,
            OutputCollector<Text, Text> paramOutputCollector,
            Reporter paramReporter) throws IOException {

        DateSerializer sz = new DateSerializer();
        StringSerializer s = new StringSerializer();

        for (IColumn col : columns.values()) {
            Date name = sz.fromByteBuffer(col.name());

            double value = ByteBufferUtil.toDouble(col.value());
            paramOutputCollector.collect(new Text(s.fromByteBuffer(key)),
                    new Text(name.toGMTString() + " [] []  " + value));
        }

    }


public static class ReducerToFilesystem implements
        Reducer<Text, Text, Text, Text> {
    public void reduce(Text key, Iterator<Text> values,
            OutputCollector<Text, Text> paramOutputCollector,
            Reporter paramReporter) throws IOException {
        StringBuffer bfr = new StringBuffer();
        while (values.hasNext()) {
            Text val = values.next();
            bfr.append(val);
            bfr.append("<--->");

        }

        paramOutputCollector.collect(key, new Text(bfr.toString()));

    }

请指导。

谢谢您的帮助!

最佳答案

我已经调试了一下，我认为您是对的。即使在1.2.9版本中，分页也无法正确完成。

关于hadoop - 映射器与DataStax Cassandra 1.2.1一起无限发展，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16572235/

28

4

0

文章推荐： java - 从未为大数据创建的 Hadoop 减少输出文件

文章推荐： ckeditor - 如何将 Google 翻译与 CKEditor 结合使用？

文章推荐： ember.js - 添加到 Ember Addon 的路由

文章推荐： hadoop - 将Solr索引同步到Hadoop友好格式

osgi - Karaf 发展
我目前正在为 karaf 开发 bundle 并有一些问题... 我写了一个基于 cxf 的 bundle/webservice，我尝试在 karaf 中部署它，但它无法启动那个 bundle，因为它
css - 发展 wordpress 主题，调整标题大小
我正在为我正在制作的快速网站使用高级 wordpress 主题。几乎所有内容都可以在管理面板中设置，这很棒，但标题大小不是其中之一，我现在发现它有点大。我想在管理面板中使用“自定义 css”部分，因为
scala - 如何在不发送模式或使用注册表的情况下使用 Akka Persistence 发展 Avro 模式？
我们正在考虑为基于 Scala 的 Akka Persistence 应用程序使用序列化方法。我们认为我们的持久化事件很可能会随着时间的推移而“演变”，因此我们希望支持模式演变，并首先考虑 Avro。
python - Python 2.4 的 future 发展
我正在开始一个新的 python 项目，主要针对可能在几年内升级到 RHEL6 的 RHEL5 机器。鉴于 python 2.4 是 RHEL5 上的标准，并且系统管理员不会支持他们必须支持的更多内容
javascript - 适用于 chrome ext 的简单且流行的 javascript 框架。发展
我正在为我的 Chrome 扩展程序开发寻找一个简单的 Javascript 框架。我正在使用 jQuery 和 jQuery UI，但随着我的项目的增长，我对代码的定位变得更糟。因此，我需要某种一致

首页

博学

6Ren·AI

商城

hadoop - 映射器与DataStax Cassandra 1.2.1一起无限发展