java - 如何在 hadoop 中管理连接

java - 如何在 hadoop 中管理连接 - MultipleInputPath

转载作者：可可西里更新时间：2023-11-01 16:14:18

在 map side join 之后，我在 Reducer 中得到的数据是

key------ book
values
    6
    eraser=>book 2
    pen=>book 4
    pencil=>book 5

我基本上想做的是

eraser=>book = 2/6
pen=>book = 4/6
pencil=>book = 5/6

我最初做的是这样的

public void reduce(Text key,Iterable<Text> values , Context context) throws IOException, InterruptedException{

        System.out.println("key------ "+key);
        System.out.println("Values");
        for(Text value : values){
            System.out.println("\t"+value.toString());
            String v = value.toString();
            double BsupportCnt = 0;
            double UsupportCnt = 0;
            double res = 0;
            if(!v.contains("=>")){
                BsupportCnt = Double.parseDouble(v);
            }
            else{
                String parts[] = v.split(" ");
                UsupportCnt = Double.parseDouble(parts[1]);
            }
//          calculate here
            res = UsupportCnt/BsupportCnt;

        }

如果传入的数据如上，则可以正常工作

但是如果mapper传入的数据是

key------ book
values
    eraser=>book 2
    pen=>book 4
    pencil=>book 5
    6

这行不通否则我需要将所有 => 存储在一个列表中(如果传入数据是大数据，该列表可能会占用堆空间)，一旦我得到一个数字，我就应该进行计算。

更新由于 Vefthym 要求在值到达 reducer 之前对其进行二次排序。我使用 htuple 来做同样的事情。我推荐了this link

在 mapper1 中发出 eraser=>book 2 作为值所以

public class AprioriItemMapper1 extends Mapper<Text, Text, Text, Tuple>{
    public void map(Text key,Text value,Context context) throws IOException, InterruptedException{
        //Configurations and other stuffs
        //allWords is an ArrayList
        if(allWords.size()<=2)
        {
            Tuple outputKey = new Tuple();
            String LHS1 = allWords.get(1);
            String RHS1 = allWords.get(0)+"=>"+allWords.get(1)+" "+value.toString();
            outputKey.set(TupleFields.ALPHA, RHS1);
            context.write(new Text(LHS1), outputKey);
                 }
//other stuffs

Mapper2 发出 numbers 作为值

public class AprioriItemMapper2 extends Mapper<Text, Text, Text, Tuple>{
    Text valEmit = new Text(); 
    public void map(Text key,Text value,Context context) throws IOException, InterruptedException{
        //Configuration and other stuffs
        if(cnt != supCnt && cnt < supCnt){
            System.out.println("emit");
            Tuple outputKey = new Tuple();
            outputKey.set(TupleFields.NUMBER, value);

            System.out.println("v---"+value);
            System.out.println("outputKey.toString()---"+outputKey.toString());
            context.write(key, outputKey);
        }

Reducer 我只是尝试打印键和值

但是这个发现了错误

Mapper 2: 
line book
Support Count: 2
count--- 1
emit
v---6
outputKey.toString()---[0]='6, 
14/08/07 13:54:19 INFO mapred.LocalJobRunner: Map task executor complete.
14/08/07 13:54:19 WARN mapred.LocalJobRunner: job_local626380383_0003
java.lang.Exception: java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.htuple.Tuple
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:406)
Caused by: java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.htuple.Tuple
    at org.htuple.TupleMapReducePartitioner.getPartition(TupleMapReducePartitioner.java:28)
    at org.apache.hadoop.mapred.MapTask$NewOutputCollector.write(MapTask.java:601)
    at org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:85)
    at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:106)
    at edu.am.bigdata.apriori.AprioriItemMapper1.map(AprioriItemMapper1.java:49)
    at edu.am.bigdata.apriori.AprioriItemMapper1.map(AprioriItemMapper1.java:1)
    at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:140)
    at org.apache.hadoop.mapreduce.lib.input.DelegatingMapper.run(DelegatingMapper.java:51)
    at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:672)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:330)
    at org.apache.hadoop.mapred.LocalJobRunner$Job$MapTaskRunnable.run(LocalJobRunner.java:268)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
    at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:334)
    at java.util.concurrent.FutureTask.run(FutureTask.java:166)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1110)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:603)
    at java.lang.Thread.run(Thread.java:722)

错误在 context.write(new Text(LHS1), outputKey); 来自 AprioriItemMapper1.java:49但以上打印细节来自Mapper 2

有什么更好的办法吗请建议。

最佳答案

我建议使用二次排序，这将保证第一个值(按字典顺序排序)是数字值，假设没有以数字开头的单词。

如果这行不通，那么，考虑到您提到的可扩展性限制，我会将 reducer 的值存储在 HashMap<String,Double> 中。缓冲区，其中键是“=>”的左侧部分，值是它们的数值。您可以存储这些值，直到获得分母的值 BsupportCnt .然后，您可以发出具有正确分数的所有缓冲区内容和所有剩余值，因为它们一个接一个地出现，而无需再次使用缓冲区(因为您现在知道分母)。类似的东西:

public void reduce(Text key,Iterable<Text> values , Context context) throws IOException, InterruptedException{
    Map<String,Double> buffer = new HashMap<>();
    double BsupportCnt = 0;
    double UsupportCnt;
    double res;
    for(Text value : values){
        String v = value.toString();

        if(!v.contains("=>")){
            BsupportCnt = Double.parseDouble(v);
        } else {
            String parts[] = v.split(" ");
            UsupportCnt = Double.parseDouble(parts[1]);

            if (BsupportCnt != 0) { //no need to add things to the buffer any more
               res = UsupportCnt/BsupportCnt;
               context.write(new Text(v), new DoubleWritable(res));
            } else {
               buffer.put(parts[0], UsupportCnt);
            }
        }

    }


    //now emit the buffer's contents
    for (Map<String,Double>.Entry entry : buffer) {
        context.write(new Text(entry.getKey()), new DoubleWritable(entry.getValue()/BsupportCnt));
    }
}

您可以通过仅将“=>”的左侧部分存储为 HashMap 的键来获得更多空间，因为右侧部分始终是 reducer 的输入键。

关于java - 如何在 hadoop 中管理连接 - MultipleInputPath，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25160703/

文章推荐： hadoop - 如何在 Pig 中拆分具有 '\t' 和 ',' 值的文本文件

文章推荐： hadoop - 获取 Hive 插入的作业统计信息

java - Http session 管理/替代 session 管理(Java 中)
我会尽可能地解释我正在做的事情，以获得最好的可能的建议/解决方案。这一切都是在 java 中完成的。我的客户有一个基于 SWING 的桌面应用程序，它将使用 WebStart 加载。我被指派为用户帐
azure-api-management - 使用 Azure CLI 管理 API 管理 (APIM) 用户、产品、证书、API
看来这个page包含 Azure CLI 支持的与 Azure API 管理相关的所有功能。但它没有展示如何使用 Azure CLI 管理用户、产品、证书、订阅和 API 等实体。 Azure CLI
Hadoop 管理
我设置了一个 Hadoop 1.2.x 版本，双节点集群。第一节点(NameNode、Jobtracker)和第二节点(Secondary NameNode、Datanode、TaskTracker)
MySQL 管理
对于内容驱动的网站，设计好坏的关键是关系型数据库。在这个教程中，我们已经使用了MySQL关系型数据库管理系统(RDBMS)建立了我们的数据库。对于网站的开发者来说，MySQL是一个较受欢迎的选择，这
06、MariaDB 管理
在尝试运行MariaDB之前，首先确定其当前状态，运行或关闭。有三个选项用于启动和停止MariaDB – 运行mysqld（MariaDB脚本）。运行mysqld_safe启动脚本。
具有同一模型的多个内联的 Django 管理
我在管理界面中遇到 StackedInlines 前缀的问题。我会尝试发布所有必要的代码。 models.py(简要) ##### Base classes class BaseItem(models
提升 session 管理
我是新来的。到目前为止，我一直在使用 MVC 模型并使用基本的 session 管理模型，即在 session 中存储一个 token 并检查每个请求。我正在尝试对lift做同样的事情，但我的 se
NHibernate session 管理
我在 win 服务中使用 NHiberante。有时我得到 System.ObjectDisposedException: Session is closed! Object name: 'ISess
HtmlUnit session 管理
我正在尝试使用 HtmlUnit 登录 Facebook 页面并查看其 HTML 内容。我正在尝试通过 HtmlUnit 填写登录凭据，但在单击提交按钮时我没有看到正在执行的 session 。在
javascript - 管理/后端和前端作为一个项目或单独的项目
我正在为一个相当大的项目开发一个带有 reactjs 的前端，该项目有两个主要接口(interface)。主站点的前端和管理员的前端。我应该将它们开发为两个不同的项目还是 reactjs 中的一个项
c# - 动态装配解析/管理
短版我有一个使用插件基础结构的应用程序。插件具有可配置的属性，可帮助它们了解如何完成工作。插件按配置文件分组以定义如何完成任务，配置文件存储在由 DataContractSerializer 序列化
iPhone session 管理
如何管理 iPhone 应用程序中的用户 session ？我在应用程序的第一页上从用户那里获取了用户名和密码。用户可以随时注销。如何像其他 Web 应用程序一样在 iPhone 应用程序中存储 se
Azure API 管理
我正在使用 Azure API 管理，其中包含第三方论坛 (Discourse) 的链接。 api管理提供的默认登录系统用于注册用户。我想知道是否可以对 api 管理和论坛使用单点登录，这样用户就不必
WordPress session 管理
我正在使用 Wordpress 建立一个网站，并且我想利用它的 session 。但我没有找到任何插件，甚至文档。在我开始破解之前有什么建议或引用吗？注意:我问的是 WP 是否以及如何使用标准 PH
Azure session 管理
我已阅读《Azure in Action》一书中的以下内容:“在 Windows Azure 中，状态服务器或进程外 session 状态提供程序，不支持” 谁能告诉我为什么不支持这个。他们在书中没有
Django 管理，过滤内联表单集的对象
我有一个内联表单集，我想排除一些模型对象在表单集中显示。例如。模型 B 具有模型 A 的外键，因此它是 1:n(A 对象有许多 B 对象)关系。现在在 A 管理编辑页面上，我已经获得了 B 的内联。
javascript设置间隔 session 管理
我正在开发一个基于 session 的项目。我在想，与银行类似，我会创建一张支票并为用户提供阻止 session 超时的能力。我正在考虑创建一个 setInterval 来检查需要身份验证的空白页面
Magento:管理 - 产品搜索过滤器
我正在为一位拥有 Magento 商店的客户工作。里面塞满了产品，但这些产品的名称有点乱。他并没有坚持一种命名约定，而是多年来使用了不同的约定。因此，每当他使用“管理”->“管理产品”部分中的“名称”
XSLT 管理 - 将元数据附加到输出和参数的样式表
我使用大约十几个 XSLT 文件来提供大量输出格式。目前，用户必须知道导出的文件格式的扩展名，例如RTF、HTML、TXT。我还想使用参数来允许更多选项。如果我可以将元数据嵌入 XSL 文件本身，那
Azure session 管理
我已阅读《Azure in Action》一书中的以下内容:“在 Windows Azure 中，状态服务器或进程外 session 状态提供程序，不支持” 谁能告诉我为什么不支持这个。他们在书中没有

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 如何在 hadoop 中管理连接 - MultipleInputPath