hadoop - 调度具有输入参数的HBase Hadoop MR作业-6ren

hadoop - 调度具有输入参数的HBase Hadoop MR作业

转载作者：行者123 更新时间：2023-12-02 20:11:56

我可以使用hadoop jar命令运行作业。
但是，当我尝试使用oozie安排工作时，我无法做到这一点。
另外，请让我知道错误是由于hbase表中的数据还是由于xml文件引起的。

WorkFlow xml文件如下:

<workflow-app xmlns="uri:oozie:workflow:0.1" name="java-main-wf">
    <start to="java-node"/>
    <action name="java-node">

       <java>
               <job-tracker>00.00.00.116:00000</job-tracker>
            <name-node>hdfs://00.00.000.116:00000</name-node>
            <configuration>
                <property>
                    <name>mapred.job.queue.name</name>
                    <value>${queueName}</value>
                </property>
            <property>
                <name>hbase.zookeeper.property.clientPort</name>
                <value>2181</value>
                </property>
            <property>
                <name>hbase.zookeeper.quorum</name>
                <value>aaaaaa0000002d:2888:3888,bbbbbb000000d:2888:3888,bbbbbb000000d:2888:3888</value>
            </property>
            <property>
                 <name>hbase.master</name>
                  <value>aaaaaa000000d:60000</value>
             </property>

            <property>
                 <name>hbase.rootdir</name>
                 <value>hdfs://aaaa000000d:54310/hbase</value>
            </property>

            </configuration>
             <main-class>com.cf.mapreduce.nord.GetSuggestedItemsForViewsCarts</main-class>
                   </java> 



<map-reduce>
            <job-tracker>1000.0000.00.000</job-tracker>
            <name-node>hdfs://10.00.000.000:00000</name-node>

            <configuration>

    <property>
          <name>mapred.mapper.new-api</name>
          <value>true</value>
        </property>
        <property>
          <name>mapred.reducer.new-api</name>
          <value>true</value>
        </property>
                <property>
                    <name>mapred.job.queue.name</name>
                    <value>${queueName}</value>
                </property>
                <property>
                    <name>mapreduce.map.class</name>
                    <value>mahout.cf.mapreduce.nord.GetSuggestedItemsForViewsCarts$GetSuggestedItemsForViewsCartsMapper</value>
                </property>
                <property>
                    <name>mapreduce.reduce.class</name>
                    <value>mahout.cf.mapreduce.nord.GetSuggestedItemsForViewsCarts$GetSuggestedItemsForViewsCartsReducer</value>
                </property>

        <property>
            <name>hbase.mapreduce.inputtable</name>
            <value>${MAPPER_INPUT_TABLE}</value>
        </property>

        <property>
            <name>hbase.mapreduce.scan</name>
            <value>${wf:actionData('get-scanner')['scan']}</value>
        </property> 

        <property>
            <name>mapreduce.inputformat.class</name>
            <value>org.apache.hadoop.hbase.mapreduce.TableInputFormat</value>
        </property>
        <property>
        <name>mapreduce.outputformat.class</name>
        <value>org.apache.hadoop.mapreduce.lib.output.NullOutputFormat</value>
        </property>
                <property>
                    <name>mapred.map.tasks</name>
                    <value>1</value>
                </property>
             <property>
                    <name>mapred.reduce.tasks</name>
                    <value>10</value>
                </property>
<property>
<name>hbase.zookeeper.property.clientPort</name>
<value>2181</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>aaa000,aaaa0000,aaaa00000</value>
</property>
<property>
   <name>hbase.master</name>
     <value>blrkec242032d:60000</value>
   </property>

<property>
  <name>hbase.rootdir</name>
  <value>hdfs://aaaa0000:00010/hbase</value>
</property>





            </configuration>


        </map-reduce>

并且映射器的错误日志为:

    Submitting Oozie action Map-Reduce job   
     <<< Invocation of Main class completed <<<        
    Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.MapReduceMain], main() threw exception, No table was provided.
    java.io.IOException: No table was provided.     at org.apache.hadoop.hbase.mapreduce.TableInputFormatBase.getSplits(TableInputFormatBase.java:130)          at org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java:962)
        at org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:979)
        at org.apache.hadoop.mapred.JobClient.access$500(JobClient.java:170)
        at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:891)
        at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:844)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:396)
   org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1232)
        at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:844)
        at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:818)
    org.apache.oozie.action.hadoop.MapReduceMain.submitJob(MapReduceMain.java:91)
        at org.apache.oozie.action.hadoop.MapReduceMain.run(MapReduceMain.java:57)
        at org.apache.oozie.action.hadoop.LauncherMain.run(LauncherMain.java:37)
        at org.apache.oozie.action.hadoop.MapReduceMain.main(MapReduceMain.java:40)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
  sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
        at java.lang.reflect.Method.invoke(Method.java:597)
     org.apache.oozie.action.hadoop.LauncherMapper.map(LauncherMapper.java:454)
        at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:50)
        at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:393)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:327)
        at org.apache.hadoop.mapred.Child$4.run(Child.java:270)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:396)at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1232)
        at org.apache.hadoop.mapred.Child.main(Child.java:264)

    Oozie Launcher failed, finishing Hadoop job gracefully          
    Oozie Launcher ends    
    syslog logs    
    2012-12-11 10:21:18,472 WARN org.apache.hadoop.mapred.JobClient: No job jar file set.  User classes may not be found. See JobConf(Class) or JobConf#setJar(String).
    2012-12-11 10:21:18,586 ERROR org.apache.hadoop.hbase.mapreduce.TableInputFormat: java.lang.NullPointerException
        at org.apache.hadoop.hbase.util.Bytes.toBytes(Bytes.java:404)
        at org.apache.hadoop.hbase.client.HTable.<init>(HTable.java:153)        org.apache.hadoop.hbase.mapreduce.TableInputFormat.setConf(TableInputFormat.java:91)
        at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:70)          at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:130)
        at org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java:959)
        at org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:979)
        at org.apache.hadoop.mapred.JobClient.access$500(JobClient.java:170)
        at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:891)
        at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:844)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:396)       at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1232)
        at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:844)
        at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:818)         at org.apache.oozie.action.hadoop.MapReduceMain.submitJob(MapReduceMain.java:91)
        at org.apache.oozie.action.hadoop.MapReduceMain.run(MapReduceMain.java:57)
        at org.apache.oozie.action.hadoop.LauncherMain.run(LauncherMain.java:37)
        at org.apache.oozie.action.hadoop.MapReduceMain.main(MapReduceMain.java:40)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)            at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
        at java.lang.reflect.Method.invoke(Method.java:597)         at org.apache.oozie.action.hadoop.LauncherMapper.map(LauncherMapper.java:454)
        at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:50)
        at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:393)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:327)
        at org.apache.hadoop.mapred.Child$4.run(Child.java:270)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:396)           at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1232)
        at org.apache.hadoop.mapred.Child.main(Child.java:264)

最佳答案

调用TableMapReduceUtil.initTableMapper(..)时，实用程序方法正在配置许多作业属性，其中一个是要扫描的HBase表。

查看代码(@GrepCode)，我可以看到此方法设置了以下属性:

<property>
  <name>hbase.mapreduce.inputtable</name>
  <value>CUSTOMER_INFO</value>
</property>
<property>
  <name>hbase.mapreduce.scan</name>
  <value>...</value>
</property>

输入表应该是表的名称，scan属性是扫描信息的某种序列化(Base 64编码版本)。我认为最好的选择是手动运行作业，并通过作业跟踪器检查job.xml以查看设置的值。

请注意，您还需要设置reducer的属性(请参见 initTableReducerJob method中的源代码)，再次检查job.xml中是否有手动提交的作业可能是最好的选择。

关于hadoop - 调度具有输入参数的HBase Hadoop MR作业，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13816815/

文章推荐： docker - 使用现有数据通过 docker 安装 gitlab

文章推荐： docker - Docker容器-端口设置

multithreading - Perl中的线程同步/调度
我有一个带有一些功能的perl对象。每个功能从主程序中调用一次。我想并行运行某些功能以节省时间。由于某些功能取决于先前功能的结果，因此我无法将它们全部一起运行。我想到了这样的事情: 对于每个函数，保
python 调度 - 如何避免无限循环？
首先，我的代码在这里: import schedule # see https://github.com/dbader/schedule import crawler def job(): p
java - quartz 调度
从 11 月 1 日开始，我必须使用quartz调度程序每4个月安排一次任务。我使用 cronExpression 来实现同样的目的。但 cronExpression 每年都会重置。所以我的任务将在
java - Akka 调度
我有以下代码块，它调用两个请求，但略有延迟。 final ActorRef actor1 = getContext().actorOf( ActorClass.prop
linux - 调度 - 每个进程使用一个或多个内核堆栈进行上下文切换
考虑到 Linux 的情况，我们为每个用户堆栈都有一个内核堆栈，据我所知，每当发生上下文切换时，我们都会切换到当前进程的内核模式。这里我们保存当前进程的当前状态，寄存器，程序数据等，然后调度器(不确
c - OpenBSD下的pthread优先级/调度
我有将东西移植到 OpenBSD 的奇怪爱好。我知道它有 pthreads 问题，但在 2013 年 5 月发布版本之前我不会升级。我使用的是 5.0，我对 pthreads 还很陌生。我已经学习了
algorithm - 调度:隐式期限率单调算法的提前期限
给定一组任务: T1(20,100) T2(30,250) T3(100,400) (execution time, deadline=peroid) 现在我想将截止日期限制为 Di = f * Pi
python - 调度:最小化非重叠时间范围之间的差距
使用 Django 开发一个小型日程安排 Web 应用程序，在该应用程序中，人们被分配特定的时间与他们的上级会面。员工存储为模型，与表示时间范围和他们有空的星期几的模型具有 OneToMany 关系。
algorithm - 贪心算法，调度
我想了解贪婪算法调度问题的工作原理。所以我一直在阅读和谷歌搜索一段时间，因为我无法理解贪心算法调度问题。我们有 n 个作业要安排在单个资源上。作业 (i) 有一个请求的开始时间 s(i) 和结束时
algorithm - 调度，贪心算法
这是流行的 El Goog 问题的变体。考虑以下调度问题:有 n 个作业，i = 1..n。有 1 台 super 计算机和无限的 PC。每个作业都需要先经过 super 计算机的预处理，然后再在P
python - 调度 Scrapy 蜘蛛以脚本的间隔运行
假设我有一个需要运行多次的蜘蛛 class My_spider(Scrapy.spider): #spider def 我想做这样的事 while True: runner = Cra
kubernetes - 如何调试 kubernetes 调度？
我已将 podAntiAffinity 添加到我的 DeploymentConfig 模板中。但是，pod 被安排在我预计会被规则排除的节点上。我如何查看 kubernetes 调度程序的日志以了
reactjs - 调度 Redux 操作是否被认为是昂贵的？
我已经使用 React - Redux - Typescript 堆栈有一段时间了，到目前为止我很喜欢它。但是，由于我对 Redux 很陌生，所以我一直在想这个特定的话题。调度 Redux 操作(和
azure - 调度 Azure 实例
我想按照预定的计划(例如，周一至周五，美国东部时间晚上 9 点至 5 点)运行单个 Azure 实例以减少账单，并且想知道最好的方法是什么。问题的两个部分: 能否使用服务管理 API [1] 按预定
Drupal 的引导/调度/路由流程
假设最小模块安装(为了简单起见)，Drupal 的 index.php 中两个顶级功能的核心“职责”是什么？ ? drupal_bootstrap(DRUPAL_BOOTSTRAP_FULL); me
scheme - Racket URL 调度
我正在尝试使用 Racket(以前称为 PLT Scheme)连接 URL 调度。我查看了教程和服务器文档。我不知道如何将请求路由到相同的 servlet。具体例子: #lang 方案 (需要网络服
月末的 Airflow DAG 调度
我想在 Airflow (v1.9.0) 上运行计划。我的DAG需要在每个月底运行，但我不知道如何编写设置。 my_dag = DAG(dag_id=DAG_ID, cat
azure - 调度 httpTrigger 函数
我正在尝试在“httpTrigger”类型函数的 function.json 中设置计划字段，但计时器功能似乎未运行。我的目标是拥有一个甚至可以在需要时进行调度和手动启动的功能，而不必仅为了调度而添加
Airflow 无法识别 DAG 调度
我正在尝试制定每周、每月的 Airflow 计划，但不起作用。有人可以报告可能发生的情况吗？如果我每周、每月进行安排，它就会保持静止，就好像它被关闭一样。没有错误信息，只是不执行。我发送了一个代码示例
javascript - firebase 有办法每两周调用一次我的代码吗？调度
我希望每两周自动更新一次我的表格。我希望我的函数能够被 firebase 调用。这可能吗？我正在使用 Angular 2 Typescript 和 Firebase。最佳答案仅通过fireba

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

hadoop - 调度具有输入参数的HBase Hadoop MR作业