python - 在 Hadoop 上使用 mrjob 启 Action 业时出错-6ren

python - 在 Hadoop 上使用 mrjob 启 Action 业时出错

转载作者：可可西里更新时间：2023-11-01 14:45:44

我是 hadoop 和 mrjob 的新手，这本书对我的学习帮助很大。我试图在 hadoop 上运行 mrSVM.py，因为它在本地运行良好。

但我运行了以下命令:python mrSVM.py -r hadoop kickStart.txt并给出以下错误:

no configs found; falling back on auto-configuration
no configs found; falling back on auto-configuration
creating tmp directory /tmp/mrSVM.manvendra.20140818.075925.908574
writing wrapper script to /tmp/mrSVM.manvendra.20140818.075925.908574/setup-wrapper.sh
Using Hadoop version 2.5.0
Copying local files into hdfs:///user/manvendra/tmp/mrjob/mrSVM.manvendra.20140818.075925.908574/files/
HADOOP: session.id is deprecated. Instead, use dfs.metrics.session-id
HADOOP: Initializing JVM Metrics with processName=JobTracker, sessionId=
HADOOP: Cannot initialize JVM Metrics with processName=JobTracker, sessionId= - already initialized
HADOOP: Cleaning up the staging area file:/tmp/hadoop-manvendra/mapred/staging/manvendra1365509453/.staging/job_local1365509453_0001
HADOOP: Error launching job , bad input path : File does not exist: /tmp/hadoop-manvendra/mapred/staging/manvendra1365509453/.staging/job_local1365509453_0001/archives/mrjob.tar.gz#mrjob.tar.gz
HADOOP: Streaming Command Failed!
Job failed with return code 512: ['/home/manvendra/hadoop-2.5.0/bin/hadoop', 'jar', '/home/manvendra/hadoop-2.5.0/share/hadoop/tools/lib/hadoop-streaming-2.5.0.jar', '-files', 'hdfs:///user/manvendra/tmp/mrjob/mrSVM.manvendra.20140818.075925.908574/files/setup-wrapper.sh#setup-wrapper.sh,hdfs:///user/manvendra/tmp/mrjob/mrSVM.manvendra.20140818.075925.908574/files/mrSVM.py#mrSVM.py', '-archives', 'hdfs:///user/manvendra/tmp/mrjob/mrSVM.manvendra.20140818.075925.908574/files/mrjob.tar.gz#mrjob.tar.gz', '-input', 'hdfs:///user/manvendra/tmp/mrjob/mrSVM.manvendra.20140818.075925.908574/files/kickStart.txt', '-output', 'hdfs:///user/manvendra/tmp/mrjob/mrSVM.manvendra.20140818.075925.908574/step-output/1', '-mapper', 'sh -e setup-wrapper.sh python mrSVM.py --step-num=0 --mapper', '-reducer', 'sh -e setup-wrapper.sh python mrSVM.py --step-num=0 --reducer']
Scanning logs for probable cause of failure
Traceback (most recent call last):
File "mrSVM.py", line 81, in <module>
MRsvm.run()
File "/usr/local/lib/python2.7/dist-packages/mrjob-0.4.3_dev-py2.7.egg/mrjob/job.py", line 462, in run
mr_job.execute()
File "/usr/local/lib/python2.7/dist-packages/mrjob-0.4.3_dev-py2.7.egg/mrjob/job.py", line 480, in execute
super(MRJob, self).execute()
File "/usr/local/lib/python2.7/dist-packages/mrjob-0.4.3_dev-py2.7.egg/mrjob/launch.py", line 147, in execute
self.run_job()
File "/usr/local/lib/python2.7/dist-packages/mrjob-0.4.3_dev-py2.7.egg/mrjob/launch.py", line 210, in run_job
runner.run()
File "/usr/local/lib/python2.7/dist-packages/mrjob-0.4.3_dev-py2.7.egg/mrjob/runner.py", line 464, in run
self._run()
File "/usr/local/lib/python2.7/dist-packages/mrjob-0.4.3_dev-py2.7.egg/mrjob/hadoop.py", line 239, in _run
self._run_job_in_hadoop()
File "/usr/local/lib/python2.7/dist-packages/mrjob-0.4.3_dev-py2.7.egg/mrjob/hadoop.py", line 369, in _run_job_in_hadoop
raise CalledProcessError(returncode, step_args)
subprocess.CalledProcessError: Command '['/home/manvendra/hadoop-2.5.0/bin/hadoop', 'jar', '/home/manvendra/hadoop-2.5.0/share/hadoop/tools/lib/hadoop-streaming-2.5.0.jar', '-files', 'hdfs:///user/manvendra/tmp/mrjob/mrSVM.manvendra.20140818.075925.908574/files/setup-wrapper.sh#setup-wrapper.sh,hdfs:///user/manvendra/tmp/mrjob/mrSVM.manvendra.20140818.075925.908574/files/mrSVM.py#mrSVM.py', '-archives', 'hdfs:///user/manvendra/tmp/mrjob/mrSVM.manvendra.20140818.075925.908574/files/mrjob.tar.gz#mrjob.tar.gz', '-input', 'hdfs:///user/manvendra/tmp/mrjob/mrSVM.manvendra.20140818.075925.908574/files/kickStart.txt', '-output', 'hdfs:///user/manvendra/tmp/mrjob/mrSVM.manvendra.20140818.075925.908574/step-output/1', '-mapper', 'sh -e setup-wrapper.sh python mrSVM.py --step-num=0 --mapper', '-reducer', 'sh -e setup-wrapper.sh python mrSVM.py --step-num=0 --reducer']' returned non-zero exit status 512

请帮我解决这个问题。

最佳答案

这是 Hadoop 2.x 和 mrjob 的一个已知问题。请进行以下更改，格式化您的名称节点，重新启动您的 hadoop 实例 + yarn ，一切都应该工作。

核心站点.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
 <property>
      <name>hadoop.tmp.dir</name>
      <value>/tmp</value>
      <description>A base for other temporary directories.</description>
    </property>
</configuration>

hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
 <property>
      <name>hadoop.tmp.dir</name>
      <value>/tmp</value>
      <description>A base for other temporary directories.</description>
    </property>
</configuration>

mapred-site.xml

<configuration>
  <property> 
    <name>mapreduce.framework.name</name> 
    <value>yarn</value> 
  </property>
</configuration>

yarn-site.xml

<configuration>

    <!-- Site specific YARN configuration properties -->
    <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>128</value>
        <description>Minimum limit of memory to allocate to each container request at the Resource Manager.</description>
    </property>
    <property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>2048</value>
        <description>Maximum limit of memory to allocate to each container request at the Resource Manager.</description>
    </property>
    <property>
        <name>yarn.scheduler.minimum-allocation-vcores</name>
        <value>1</value>
        <description>The minimum allocation for every container request at the RM, in terms of virtual CPU cores. Requests lower than this won't take effect, and the specified value will get allocated the minimum.</description>
    </property>
    <property>
        <name>yarn.scheduler.maximum-allocation-vcores</name>
        <value>2</value>
        <description>The maximum allocation for every container request at the RM, in terms of virtual CPU cores. Requests higher than this won't take effect, and will get capped to this value.</description>
    </property>
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>4096</value>
        <description>Physical memory, in MB, to be made available to running containers</description>
    </property>
    <property>
        <name>yarn.nodemanager.resource.cpu-vcores</name>
        <value>4</value>
        <description>Number of CPU cores that can be allocated for containers.</description>
    </property>

    <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
      <description>shuffle service that needs to be set for Map Reduce to run </description>
    </property>
</configuration>

然后运行:

hdfs namenode -format
start-dfs.sh
start-yarn.sh

干杯，

图斯詹坦·库本德拉纳坦

关于python - 在 Hadoop 上使用 mrjob 启 Action 业时出错，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25358793/

文章推荐： java - Hadoop Java 字数统计调整不起作用 - 尝试总结所有

文章推荐： javascript - 如何创建动态下拉列表？

文章推荐： c# - 如何使用 HTMLAgilityPack 访问多个

标签的内容？

文章推荐： hadoop - 在 hive 或 Pig 中创建序列号

javascript - EmberJS Action - 当包装在 `actions` 中时从另一个 Action 调用一个 Action
当包裹在 EmberJS Controller 的 actions 中时，如何从另一个 Action 调用一个 Action ？使用现已弃用的方式定义操作的原始代码: //app.js App.In
Github Action -完成一个 Action 后触发另一个 Action
我有一个 Action (一个yaml文件)，用于将docker镜像部署到Google Cloud Run。我希望收到通知构建和推送结果的Slack或电子邮件。构建操作完成后，如何触发消息操作？
java - Action 类中的tick(Action action)是什么？
Selenium 的 actions 类中存在的 tick(Action action) 和 tick(Interaction...actions) 方法的用途是什么？是否与点击任何 webElem
actions-on-google - 对话 Action 2023 年日落 : Migrating from conversational actions to Smart Home Actions
简短的背景故事我们目前为数百名用户提供对话操作。我们在过去三年中为我们的一位客户开发了这个 Action 作为“工作”。正如我们最近发现的那样，我们会受到对话行为的影响。当然，我们现在正在研究如何
uml - 在事件图中，由于一个 Action 包含在另一个 Action 中，是否可以 fork 成两个 Action 但在加入时只有一个 Action ？
考虑系统用户可以并发方式执行两个操作，第一个操作 (A1) 仅对用户的订单执行，第二个操作 (A2) 包括在执行时执行 (A1)，如下面的使用所述-案例图..((考虑A1完全执行U1，A2完全执行U2
android - Action 项目系统地堆叠在 Action 溢出中，在 Action 栏中
我正在为 android 中的 ActionBar 而苦苦挣扎。这是我的问题:我的操作项没有显示在操作栏中，而是堆叠在操作溢出中，无论我做什么.. 我花了一天的时间寻找解决方案，但我似乎找不到缺少的
github-actions - 如何将 Action 的输出用作 Github Action 工作流程的 if 条件中的表达式？
我正在构建一个工作流，其中一个操作为工作流中的一个步骤提供条件。我该如何使用这个值？该操作的值为空，因此计算结果为 false，并且从未部署过任何内容... jobs: build: s
redux - 像显示/隐藏加载屏幕这样的 Action 应该由相关 Action 的reducer处理还是由 Action 创建者自己生成？
鉴于您有一些全局 View (例如，显示加载屏幕)，您可能希望在许多情况下发生这种情况，为该行为创建一个 Action 创建者/ Action 对还是为相关 Action 创建 reducer 更合适
actions-on-google - Actions on Google 启动自定义操作(不是主要的 actions.intent.MAIN)
我有一个使用 DialogFlow 构建的 Actions on Google 代理，其中包含多个操作(例如 actions.intent.MAIN 和 get_day_of_week)。当我在 3
github-actions - 如何从 GitHub Action 的 action.yml 文件中引用其他操作？
是否可以从我的 action.yml 文件中引用另一个 GitHub 操作？请注意，我在这里谈论的是操作，而不是工作流程。我知道这可以通过工作流来完成，但是操作可以引用其他操作吗？最佳答案答案似
javascript - 如何从一个 Action 派发另一个 Action 并在 Vuex 中派发另一个 Action
在 Vuex 操作中，我们有以下实现。 async actionA({ commit, dispatch }) { const data = this.$axios.$get(`/apiUrl`)
java - 正在调用 struts.xml 中定义的 Action ，但未调用 Action 包中存在的 Action
我正在将我的应用程序服务器从 Jboss 4.2 迁移到 7.1。我在 Struts 配置中收到以下错误。 struts.xml 中定义的 Action 被调用，而 Action 包中的操作未被调用。
java - 将 Action 重定向(使用拦截器)到其他 Action 时无法执行 Struts2 Action
我向 ActLand 发送请求，然后 intercept()，如果没有登录则重定向到 Login.jsp。 struts.xml:
javascript - Action 创建者是否有必要返回 Action ？
我有一个 Action 创建器，它接受一个 id 和一个回调函数。它向服务器发送请求以执行某些操作并返回一个虚拟操作。我在这里想做的就是调用回调函数并退出，因为该虚拟操作对我来说没有用处，例如喜欢帖子
c# - Action 链接到子 Action
我已经使用 Html.Action 方法调用了另一个 View 。当用户单击操作链接时，我想在 subview 内使用参数调用相同的操作。当我写这段代码时，我得到了这个错误信息: Html.Acti
c# - Action<> 与事件 Action
是 public event Action delt = () => { Console.WriteLine("Information"); }; 的重载版本 Action delg = (a, b)
java从另一个 Action 调用 Action
countresultsfrom.addActionListener(new ActionListener() { public void actionPerforme
c# - Action 是什么意思？
我刚刚看到一个 brand-new video在 Rx 框架上，一个特别的签名引起了我的注意: Scheduler.schedule(this IScheduler, Action) 在 23:55，
actions-on-google - Google Action 和 DialogFlow 错误 "Sorry, this action is not available for your app"
我创建了一个在我的开发者帐户中完美运行的 DialogFlow 应用程序。但我需要以另一个用户的身份对其进行测试，因此在我的 Google Action 模拟器中，我添加了另一个测试帐户作为项目的所
java - 如何在 Action 链调用上的另一个 Action 类之后访问 Jsp 中的一个 Action 类 ActionMessages
我正在尝试实现消息存储拦截器以在我的 JSp 上显示 ActionMessage，但无法访问 ActionMessage。有人可以提供一个链接如何实现消息存储拦截器吗？最佳答案这是我的一个应用程序

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 在 Hadoop 上使用 mrjob 启 Action 业时出错