java - Mongo hadoop mapreduce 显示错误-6ren

java - Mongo hadoop mapreduce 显示错误

转载作者：行者123 更新时间：2023-12-01 14:22:48

我对大数据和 NOSQL 领域很陌生，我正在尝试一个示例程序

我正在尝试从我的 mongo 数据库中获取详细信息。以下是我的数据库架构--

  { "_id" : ObjectId("51d11c95e82449edcf7640bc"), "Called_Number" : NumberLong("7259400112"), "Calling_Number" : NumberLong("9008496311"), "Date" : "22-Apr-13", "Time" : "10:21:43", "Duration" : "4:36" }

现在我尝试从数据库中获取值并运行映射缩减作业，以便我可以找到如下所示的详细信息

{ "调用号码":7259400112 , 被叫号码: "9008496311"频率: "3"}

以下是我正在尝试的

package callcircle;

import java.io.*;
import java.util.*;

import org.apache.commons.logging.*;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.Mapper.Context;
import org.bson.*;

import com.mongodb.BasicDBObjectBuilder;
import com.mongodb.hadoop.*;
import com.mongodb.hadoop.io.BSONWritable;
import com.mongodb.hadoop.util.*;

public class call {

    private static final Log log = LogFactory.getLog(call.class);

    public static class TokenizerMapper extends
            Mapper<Object, Object, Text, IntWritable> {


        private final static IntWritable one = new IntWritable(1);
        private final Text word = new Text();


        public void map(Object calling_number, Object called_number,
                Context context) throws IOException, InterruptedException {
            System.out.println("entering method");


        //  calling_number = (Object) calling_number).get("Calling_Number");
            called_number = ((BSONWritable) called_number).get("Called_Number");

            String CallNumer01 = called_number.toString();

            String[] recips = CallNumer01.split(",");



            for (int i = 0; i < recips.length; i++) {
                String recip = recips[i].trim();
                if (recip.length() > 0) {


                    // context.write(new CallPair(calling_number, recip), new IntWritable(1));
                    // word.set(CallNumer01); context.write( word, one );

                    //System.out.println("After mapping");

                }
            }
        }
    }

    public class CallReducer extends
        Reducer<CallPair, IntWritable, BSONWritable, IntWritable> {

        public void reduce(final CallPair pKey,
                final Iterable<IntWritable> pValues, final Context pContext)
                throws IOException, InterruptedException {
            int sum = 0;
            for (final IntWritable value : pValues) {
                sum += value.get();
            }
            @SuppressWarnings("static-access")
            BSONObject outDoc = new BasicDBObjectBuilder().start()
                    .add("f", pKey.calling_number).add("t", pKey.called_number)
                    .get();
            BSONWritable pkeyOut = new BSONWritable(outDoc);
            pContext.write(pkeyOut, new IntWritable(sum));
        }

    }



    public static void main(String[] args) throws Exception {
        System.out.println("In Main");
        final Configuration conf = new Configuration();
        System.out.println("Conf1: " + conf);
        MongoConfigUtil.setInputURI(conf, "mongodb://localhost/CDR.in1");
        MongoConfigUtil.setOutputURI(conf, "mongodb://localhost/CDR.out");
        System.out.println("Conf: " + conf);

        final Job job = new Job(conf, "CDR");

        job.setJarByClass(call.class);
        System.out.println("Conf2: " + conf);

        job.setMapperClass(TokenizerMapper.class);

        job.setCombinerClass(CallReducer.class);
        job.setReducerClass(CallReducer.class);
        System.out.println("Conf3: " + conf);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        System.out.println("Conf3: " + conf);
        job.setInputFormatClass(MongoInputFormat.class);
        job.setOutputFormatClass(MongoOutputFormat.class);
        System.out.println("Conf4: " + conf);
        System.exit(job.waitForCompletion(true) ? 0 : 1);
        System.out.println("Conf6: " + conf);
    }

}

但是我收到以下错误

In Main
Conf1: Configuration: core-default.xml, core-site.xml
Conf: Configuration: core-default.xml, core-site.xml
13/07/01 19:04:27 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=
Conf2: Configuration: core-default.xml, core-site.xml, mapred-default.xml, mapred-site.xml
Conf3: Configuration: core-default.xml, core-site.xml, mapred-default.xml, mapred-site.xml
Conf3: Configuration: core-default.xml, core-site.xml, mapred-default.xml, mapred-site.xml
Conf4: Configuration: core-default.xml, core-site.xml, mapred-default.xml, mapred-site.xml
13/07/01 19:04:27 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.
13/07/01 19:04:27 WARN mapred.JobClient: No job jar file set.  User classes may not be found. See JobConf(Class) or JobConf#setJar(String).
13/07/01 19:04:28 INFO util.MongoSplitter:  Calculate Splits Code ... Use Shards? false, Use Chunks? true; Collection Sharded? false
13/07/01 19:04:28 INFO util.MongoSplitter: Creation of Input Splits is enabled.
13/07/01 19:04:28 INFO util.MongoSplitter: Using Unsharded Split mode (Calculating multiple splits though)
13/07/01 19:04:28 INFO util.MongoSplitter: Calculating unsharded input splits on namespace 'CDR.in1' with Split Key '{ "_id" : 1}' and a split size of '8'mb per
13/07/01 19:04:28 WARN util.MongoSplitter: WARNING: No Input Splits were calculated by the split code. Proceeding with a *single* split. Data may be too small, try lowering 'mongo.input.split_size' if this is undesirable.
13/07/01 19:04:28 INFO mapred.JobClient: Running job: job_local_0001
13/07/01 19:04:28 INFO util.MongoSplitter:  Calculate Splits Code ... Use Shards? false, Use Chunks? true; Collection Sharded? false
13/07/01 19:04:28 INFO util.MongoSplitter: Creation of Input Splits is enabled.
13/07/01 19:04:28 INFO util.MongoSplitter: Using Unsharded Split mode (Calculating multiple splits though)
13/07/01 19:04:28 INFO util.MongoSplitter: Calculating unsharded input splits on namespace 'CDR.in1' with Split Key '{ "_id" : 1}' and a split size of '8'mb per
13/07/01 19:04:28 WARN util.MongoSplitter: WARNING: No Input Splits were calculated by the split code. Proceeding with a *single* split. Data may be too small, try lowering 'mongo.input.split_size' if this is undesirable.
should setup context
13/07/01 19:04:28 INFO input.MongoInputSplit: Deserialized MongoInputSplit ... { length = 9223372036854775807, locations = [localhost], keyField = _id, query = { "$query" : { }}, fields = { }, sort = { }, limit = 0, skip = 0, noTimeout = false}
13/07/01 19:04:28 INFO mapred.MapTask: io.sort.mb = 100
13/07/01 19:04:28 INFO mapred.MapTask: data buffer = 79691776/99614720
13/07/01 19:04:28 INFO mapred.MapTask: record buffer = 262144/327680
entering method
13/07/01 19:04:28 WARN mapred.LocalJobRunner: job_local_0001
java.lang.ClassCastException: com.mongodb.BasicDBObject cannot be cast to com.mongodb.hadoop.io.BSONWritable
    at callcircle.call$TokenizerMapper.map(call.java:36)
    at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:144)
    at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:621)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:305)
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:177)
13/07/01 19:04:29 INFO mapred.JobClient:  map 0% reduce 0%
13/07/01 19:04:29 INFO mapred.JobClient: Job complete: job_local_0001
13/07/01 19:04:29 INFO mapred.JobClient: Counters: 0

请有人指导我哪里错了？

谢谢

最佳答案

如果映射器和化简器不使用相同的输出类型，则必须显式指定映射器键/值类型 - 因此您可能还需要添加:

setMapOutputKeyClass(Text.class)
setMapOutputValueClass(IntWritable.class)

关于java - Mongo hadoop mapreduce 显示错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17406063/

文章推荐： java - 同步方法的最佳方式

文章推荐： c++ - C++20 中的 std::launder 用例

文章推荐： java - 使用具有不兼容依赖项的 Java 库

文章推荐： java - JFrame - 当 JFrame 最小化时，系统托盘上不显示图标

mapreduce - MapReduce 适合我吗？
我正在处理一个处理大量数据的项目，所以我最近发现了 MapReduce，在我进一步深入研究之前，我想确保我的期望是正确的。与数据的交互将通过 Web 界面进行，因此响应时间在这里至关重要，我认为 1
mapreduce - MapReduce 中的容错
我正在阅读有关 Hadoop 以及它的容错性的文章。我阅读了 HDFS 并阅读了如何处理主节点和从节点的故障。但是，我找不到任何提及 mapreduce 如何执行容错的文档。特别是，当包含 Job T
mapreduce - Hadoop MapReduce 作业挂起
我正在尝试在我的 Ubuntu 桌面上使用最新的 Hadoop 版本 2.6.0、Java SDK 1.70 来模拟 Hadoop 环境。我用必要的环境参数配置了 hadoop，它的所有进程都已启动并
mapreduce - 良好的 MapReduce 示例
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
mapreduce - HBase Mapreduce 在多个扫描对象上
我只是想针对我们正在做的一些数据分析工作来评估 HBase。 HBase 将包含我们的事件数据。键为 eventId + 时间。我们想要对日期范围内的几种事件类型 (4-5) 进行分析。事件类型总数约
mapreduce - 使用 MapReduce 查找大整数集的中值
是否有一种快速算法可以在 MapReduce 框架上运行以从巨大的整数集中查找中位数？最佳答案我会这样做。这是顺序快速选择的一种并行版本。 (某些映射/归约工具可能不会让您轻松完成任务...) 从
mapreduce - GridGain:带有节点本地数据处理的 MapReduce？
我正在尝试对大型分布式数据集执行一些数值计算。该算法非常适合 MapReduce 模型，具有以下附加属性:与输入数据相比，映射步骤的输出尺寸较小。数据可以被视为只读，并且静态分布在节点上(故障转移时的
mapreduce - RavenDb MapReduce 数据子集
假设我在 RavenDb 中有给定的文档结构 public class Car { public string Manufacturer {get;set;} public int B
mapreduce - pymongo mapreduce 数据库断言失败
我刚刚开始使用 mongo 和 map/reduce，在使用 pymongo 时我遇到了以下错误，而在直接使用 mongo 命令行时我没有得到(我意识到有一个类似的问题这个，但我的似乎更基本)。我直
mapreduce - MongoDB MapReduce 更新到位如何
*基本上我正在尝试按过去一小时内的得分对对象进行排序。我正在尝试为我的数据库中的对象生成每小时投票总和。投票嵌入到每个对象中。对象架构如下所示: { _id: ObjectId sc
mapreduce - 如何进行更快的 Riak MapReduce 查询？
我们怎样才能使我们的 MapReduce 查询更快？我们使用五节点 Riak 数据库集群构建了一个应用程序。我们的数据模型由三个部分组成:比赛、联赛和球队。比赛包含联赛和球队的链接: 型号 va
mapreduce - 可用于使用 Hadoop/MapReduce 框架的集群
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 6 年前。
mapreduce - 在运行 MapReduce 作业时获取应用程序 ID
有没有什么方法可以在运行时获取应用程序 ID - 例如 - 带有 yarn 的 wordcount 示例命令？我希望使用 yarn 从另一个进程启 Action 业命令，并通过 YARN REST
mapreduce - 如何在 Hadoop Mapreduce 程序中使用机器学习算法？
如何在Hadoop Map-reduce程序中使用机器学习算法？我想使用分类算法、决策树、聚类算法。除了 Mahout 之外，请提出一些想法。最佳答案您可以编写自己的MapReduce程序，并在m
algorithm - MapReduce:哪些图像处理算法最容易使用 MapReduce 框架实现
虽然 MapReduce 可能不是实现图像处理中使用的算法的最佳方式，但出于好奇，如果我作为初学者尝试使用它们，这将是最简单的实现方式。最佳答案 Hadoop 非常适合处理大量 IO。因此，例如，您
java - mapreduce.reduce.shuffle.memory.limit.percent、mapreduce.reduce.shuffle.input.buffer.percent 和 mapreduce.reduce.shuffle.merge.percent
我只是想验证我对这些参数及其关系的理解，如果我错了请通知我。 mapreduce.reduce.shuffle.input.buffer.percent 告诉分配给 reducer 的整个洗牌阶段的内
mapreduce - HBase 需要 mapreduce 还是 yarn？
HBase 需要 mapreduce/yarn，还是只需要 hdfs？对于 HBase 的基本用法，例如创建表、插入数据、扫描/获取数据，我看不出有任何理由使用 mapreduce/yarn。请帮
mapreduce - 是否可以通过编写单独的 mapreduce 程序来并行执行 Hive 查询？
我问了一些关于提高 Hive 查询性能的问题。一些答案与映射器和化简器的数量有关。我尝试了多个映射器和化简器，但在执行过程中没有发现任何差异。不知道为什么，可能是我没有以正确的方式去做，或者我错过了别
java - 如何将一个 mapreduce 作业的输出作为另一个 mapreduce 作业的输入？
我是 mapreduce 和 hadoop 的新手。我阅读了 mapreduce 的示例和设计模式... 好的，我们可以进入正题了。我们正在开发一种软件，可以监控系统并定期捕获它们的 CPU 使用
c# - MapReduce.SDK : How to wait for MapReduce job?
我正在使用 Microsoft MapReduce SDK 启动仅 Mapper 作业。调用 hadoop.MapReduceJob.ExecuteJob 立即抛出“响应状态代码不表示成功:404(

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - Mongo hadoop mapreduce 显示错误