java - AWS 超时时来自 HTable 的 MapReduce 输入-6ren

java - AWS 超时时来自 HTable 的 MapReduce 输入

转载作者：行者123 更新时间：2023-12-02 20:58:38

我在弄清楚如何使用 emr-5.4.0 从 HTable 获取输入来执行简单的 MapReduce 作业时遇到了一些麻烦。
当我在 ERM 上运行时，由于超时而失败。(emr-5.3.0 也失败了)

我做了一堆谷歌搜索以了解如何进行，但找不到任何有用的东西。

我的过程:

我使用Hbase创建了一个EMR集群。版本是:

Amazon 2.7.3, Ganglia 3.7.2, HBase 1.3.0, Hive 2.1.1, Hue 3.11.0, Phoenix 4.9.0

根据手册中的示例:http://hbase.apache.org/book.html#mapreduce.example ，写我的工作喜欢:

公共(public)类 TableMapTest3 {

// TableMapper
public static class MyMapper extends TableMapper<Text, Text> {

    protected void map(ImmutableBytesWritable key, Result inputValue, Context context)
            throws IOException, InterruptedException {
        String keyS = new String(key.get(), "UTF-8");
        String value = new String(inputValue.getValue(Bytes.toBytes("contents"), Bytes.toBytes("name")), "UTF-8");
        System.out.println("TokenizerMapper :" + value);
        context.write(new Text(keyS), new Text(value));
    }
}

public static void main(String[] args) throws Exception {
    Configuration conf = HBaseConfiguration.create();
    System.out.println("url:" + conf.get("fs.defaultFS"));
    System.out.println("hbase.zookeeper.quorum:" + conf.get("hbase.zookeeper.quorum"));
    Connection conn = ConnectionFactory.createConnection(conf);

    Admin admin = conn.getAdmin();
    String tableName = "TableMapTest";
    TableName tablename = TableName.valueOf(tableName);

    Table hTable = null;
    // check table exists
    if (admin.tableExists(tablename)) {
        System.out.println(tablename + " table existed...");
        hTable = conn.getTable(tablename);
        ResultScanner resultScanner = hTable.getScanner(new Scan());
        for (Result result : resultScanner) {
            Delete delete = new Delete(result.getRow());
            hTable.delete(delete);
        }
    } else {
        HTableDescriptor tableDesc = new HTableDescriptor(tablename);
        tableDesc.addFamily(new HColumnDescriptor("contents"));
        admin.createTable(tableDesc);
        System.out.println(tablename + " table created...");
        hTable = conn.getTable(tablename);
    }

    // insert data
    for (int i = 0; i < 20; i++) {
        Put put = new Put(Bytes.toBytes(String.valueOf(i)));
        put.addColumn(Bytes.toBytes("contents"), Bytes.toBytes("name"), Bytes.toBytes("value" + i));
        hTable.put(put);
    }
    hTable.close();

    // Hadoop
    Job job = Job.getInstance(conf, TableMapTest3.class.getSimpleName());
    job.setJarByClass(TableMapTest3.class);
    job.setOutputFormatClass(NullOutputFormat.class);

    Scan scan = new Scan();
    TableMapReduceUtil.initTableMapperJob(tableName, scan, MyMapper.class, Text.class, Text.class, job);

    System.out.println("TableMapTest result:" + job.waitForCompletion(true));
}

}

将我的源打包到 jar 并上传到集群。然后我在 master 上 ssh 并运行我的工作:

hadoop jar zz-0.0.1.jar com.ziki.zz.TableMapTest3

我收到以下消息:

url:hdfs://ip-xxx.ap-northeast-1.compute.internal:8020
hbase.zookeeper.quorum:localhost
TableMapTest table created...
17/05/05 01:31:23 INFO impl.TimelineClientImpl: Timeline service address: http://ip-xxx.ap-northeast-1.compute.internal:8188/ws/v1/timeline/
17/05/05 01:31:23 INFO client.RMProxy: Connecting to ResourceManager at ip-xxx.ap-northeast-1.compute.internal/172.31.4.228:8032
17/05/05 01:31:24 WARN mapreduce.JobResourceUploader: Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this.
17/05/05 01:31:31 INFO mapreduce.JobSubmitter: number of splits:1
17/05/05 01:31:31 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1493947058255_0001
17/05/05 01:31:33 INFO impl.YarnClientImpl: Submitted application application_1493947058255_0001
17/05/05 01:31:34 INFO mapreduce.Job: The url to track the job: http://ip-xxx.ap-northeast-1.compute.internal:20888/proxy/application_1493947058255_0001/
17/05/05 01:31:34 INFO mapreduce.Job: Running job: job_1493947058255_0001
17/05/05 01:31:57 INFO mapreduce.Job: Job job_1493947058255_0001 running in uber mode : false
17/05/05 01:31:57 INFO mapreduce.Job:  map 0% reduce 0%

一口井之后，我得到了错误:

17/05/05 01:42:26 INFO mapreduce.Job: Task Id : attempt_1493947058255_0001_m_000000_0, Status : FAILED
AttemptID:attempt_1493947058255_0001_m_000000_0 Timed out after 600 secs
Container killed by the ApplicationMaster.
Container killed on request. Exit code is 143
Container exited with a non-zero exit code 143

17/05/05 01:52:56 INFO mapreduce.Job: Task Id : attempt_1493947058255_0001_m_000000_1, Status : FAILED
AttemptID:attempt_1493947058255_0001_m_000000_1 Timed out after 600 secs
Container killed by the ApplicationMaster.
Container killed on request. Exit code is 143
Container exited with a non-zero exit code 143

和一些系统日志

2017-05-05 01:31:59,664 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskImpl: task_1493947058255_0001_m_000000 Task Transitioned from SCHEDULED to RUNNING
2017-05-05 01:32:08,168 INFO [Socket Reader #1 for port 33348] SecurityLogger.org.apache.hadoop.ipc.Server: Auth successful for job_1493947058255_0001 (auth:SIMPLE)
2017-05-05 01:32:08,227 INFO [IPC Server handler 0 on 33348] org.apache.hadoop.mapred.TaskAttemptListenerImpl: JVM with ID : jvm_1493947058255_0001_m_000002 asked for a task
2017-05-05 01:32:08,231 INFO [IPC Server handler 0 on 33348] org.apache.hadoop.mapred.TaskAttemptListenerImpl: JVM with ID: jvm_1493947058255_0001_m_000002 given task: attempt_1493947058255_0001_m_000000_0
2017-05-05 01:42:25,382 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics report from attempt_1493947058255_0001_m_000000_0: AttemptID:attempt_1493947058255_0001_m_000000_0 Timed out after 600 secs
2017-05-05 01:42:25,389 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: attempt_1493947058255_0001_m_000000_0 TaskAttempt Transitioned from RUNNING to FAIL_CONTAINER_CLEANUP
2017-05-05 01:42:25,392 INFO [ContainerLauncher #1] org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl: Processing the event EventType: CONTAINER_REMOTE_CLEANUP for container container_1493947058255_0001_01_000002 taskAttempt attempt_1493947058255_0001_m_000000_0
2017-05-05 01:42:25,392 INFO [ContainerLauncher #1] org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl: KILLING attempt_1493947058255_0001_m_000000_0
2017-05-05 01:42:25,394 INFO [ContainerLauncher #1] org.apache.hadoop.yarn.client.api.impl.ContainerManagementProtocolProxy: Opening proxy : ip-xxx.ap-northeast-1.compute.internal:8041
2017-05-05 01:42:25,457 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: attempt_1493947058255_0001_m_000000_0 TaskAttempt Transitioned from FAIL_CONTAINER_CLEANUP to FAIL_TASK_CLEANUP
2017-05-05 01:42:25,458 INFO [CommitterEvent Processor #1] org.apache.hadoop.mapreduce.v2.app.commit.CommitterEventHandler: Processing the event EventType: TASK_ABORT
2017-05-05 01:42:25,460 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: attempt_1493947058255_0001_m_000000_0 TaskAttempt Transitioned from FAIL_TASK_CLEANUP to FAILED
2017-05-05 01:42:25,495 INFO [AsyncDispatcher event handler] org.apache.hadoop.yarn.util.RackResolver: Resolved ip-xxx.ap-northeast-1.compute.internal to /default-rack
2017-05-05 01:42:25,500 INFO [Thread-83] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor: 1 failures on node ip-xxx.ap-northeast-1.compute.internal
2017-05-05 01:42:25,502 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: attempt_1493947058255_0001_m_000000_1 TaskAttempt Transitioned from NEW to UNASSIGNED
2017-05-05 01:42:25,503 INFO [Thread-83] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Added attempt_1493947058255_0001_m_000000_1 to list of failed maps
2017-05-05 01:42:25,557 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Before Scheduling: PendingReds:3 ScheduledMaps:1 ScheduledReds:0 AssignedMaps:1 AssignedReds:0 CompletedMaps:0 CompletedReds:0 ContAlloc:1 ContRel:0 HostLocal:1 RackLocal:0
2017-05-05 01:42:25,582 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor: getResources() for application_1493947058255_0001: ask=1 release= 0 newContainers=0 finishedContainers=1 resourcelimit=<memory:1024, vCores:1> knownNMs=2
2017-05-05 01:42:25,582 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Received completed container container_1493947058255_0001_01_000002
2017-05-05 01:42:25,583 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics report from attempt_1493947058255_0001_m_000000_0: Container killed by the ApplicationMaster.
Container killed on request. Exit code is 143
Container exited with a non-zero exit code 143

我只是使用默认设置并运行一个简单的作业。为什么会发生这些错误？
如果我遗漏了什么，请告诉我!
无论如何，感谢您的帮助 - 不胜感激!

最佳答案

我找到了答案:here

你不能使用 HConfiguration(因为它默认为 localhost quorum)你需要做的是使用亚马逊为你设置的配置(位于/etc/hbase/conf/hbase-site.xml)

连接代码如下所示:

    Configuration conf = new Configuration();
    String hbaseSite = "/etc/hbase/conf/hbase-site.xml";
    conf.addResource(new File(hbaseSite).toURI().toURL());
    HBaseAdmin.checkHBaseAvailable(conf);

关于java - AWS 超时时来自 HTable 的 MapReduce 输入，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43796558/

文章推荐： python - 如何在 ReactJS Docker 中热重载

c++ - 输入、输出、输入/输出参数
我有一个测试即将进行，我想澄清两个有关参数的问题。在我的笔记中指出，将参数传递给函数的推荐方法是使用“按引用传递” const type& x; // for "in" parameters
parameters - 输入、输出、输入、返回 UML 中的参数方向
当我通过 OMG 2.5(Beta)推广的 UML 规范阅读以下概念时: in: Indicates that Parameter values are passed in by the caller
javascript - Angular 8 : (keyup. 输入)不触发只读 html 输入
我试图在用户按下 Enter 时触发一个函数。我将此输入设置为只读的原因是限制用户在填充值后修改输入中的值。该值来自将在点击属性中触发的弹出窗口。问题是 keyup.enter 没有触发该输入。代
jquery-plugins - jQuery token 输入( token 输入)在模式弹出窗口上不起作用，列表隐藏在弹出窗口下
我在jQuery中使用模式弹出窗口控件，该弹出窗口具有由jQuery Tokenize输入插件提供动力的输入文本。问题是，当我在模式弹出文本框中键入内容时， token 化插件的搜索结果显示为隐藏在弹
javascript - 在 getElementsByTagName 中只选择 Checkbox 输入，排除 Textbox 输入
我有一个问题。当我选中复选框时，系统工作正常，总值发生变化，但一旦我修改文本输入，它就会变为 0。我需要将此文本框输入排除在更改值之外。这是 html: $15000 $
css - 输入[类型 ="button"]、输入[类型 ="submit"]、按钮 CSS 行为不正常
我正在努力让它发挥作用，但还是有些不对劲。我想用 CSS 设置提交按钮的样式以匹配我已有的按钮。风格: input[type="button"], input[type="submit"], b
Java数组通过nextInt()输入
import java.util.*;; public class selection { Scanner in=new Scanner(System.in); private
networking - 输入/输出带宽是否共享相同的网卡限制？
这可能是一个非常菜鸟的问题。假设我有一个带宽限制为 100MB/s 的网卡，那么输入/输出带宽是否有可能达到该限制同时 ?或者我会在任何时候遇到这个不等式:in bandwidth + out ba
scala - `this` 输入 Scala
看着这个问题，Fill immutable map with for loop upon creation ，我很好奇是什么this表示在 Map(1 -> this) . scala> Map(1
excel - 如何根据excel中的另一个单元格值限制单元格中的值输入/输入？
我有这样的东西一个乙问？是或否数字数字或零我想做的是: 如果 B1 = “Y”，则让用户在 B2 中输入一个数字。如果 B1 = “N”，则将 B2 中的值更改为零，并且不允许用户在
表格单元格内的 HTML 输入
我有一个包含许多列的表，我想添加 input标题单元格内的字段，但我希望输入适合根据正文内容的宽度。这是没有 input 的样子领域: 这就是 input 的样子领域: 可以看出，像“index”和
FTP 输入/输出文件夹名称最佳实践
关于为 FTP 客户端设置传出和传入文件夹，您遵循哪些最佳实践(如果有)？我们通常使用“outgoing”和“incoming”，但无论你如何表述方向，它都可以有两种解释方式，具体取决于名称相对于哪一
haskell - 输入 ‘where’ 解析错误
我正在尝试“求解”给定 d 的 Pell 方程:x^2 - d * y^2 = 1，或者至少我想得到最小的 x > 0 来求解方程。到目前为止，一切都很好。这是我的 Haskell 代码 minX :
python - VS代码在运行ctrl时移至下一行+输入
我是VS Code的新手，可以使用Ctrl + Enter将代码运行到python交互式窗口中。我希望光标自动移动到下一行，因此我可以逐行浏览代码。能做到吗？最佳答案如this blog pos
多维数组的 typescript 输入
我正在创建一个 bool 值矩阵/二维数组，并且我想为 dategrid 推断一种不仅仅是“ANY”的类型。 let yearRange = [2000,2001,2002,2003,2004]; l
python - “输入”两个具有最低复杂度的排序列表
我有两个排序的列表，例如 a = [1, 4, 7, 8] b = [1, 2, 3, 4, 5, 6] 我想知道a中的每个项目是否在b中。对于上面的示例，我想找到 a_in_b = [True, T
javascript - 输入/返回时指令语法错误
菜鸟警报这很奇怪 - 当我编写以下代码时，尝试在 AngularJS 中创建自定义指令: myModule.directive('myTab', function(){ console.lo
javascript - 单击显示文本字段(输入)
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
godot - 输入 "Any"的正确方法
假设我正在使用 gdscript 静态类型，并且对于一个函数参数，我事先不知道我会得到什么。这就是 python 中 typing.Any 的作用。如何使用 gdscript 做到这一点？似乎 Va
javascript - 向图像添加字段(输入)
我使用 dropzone 上传多个图像，并且工作正常，直到我想为每个图像插入品牌和网址。我遇到的唯一问题是，当我要从输入字段获取值时，我会从服务器获取来自字段(品牌、网址)的未定义值，但如果我使用静

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - AWS 超时时来自 HTable 的 MapReduce 输入