Python Hadoop 流错误 "ERROR streaming.StreamJob: Job not Successful!"和堆栈跟踪 : ExitCodeException exitCode=134-6ren

Python Hadoop 流错误 "ERROR streaming.StreamJob: Job not Successful!"和堆栈跟踪 : ExitCodeException exitCode=134

转载作者：可可西里更新时间：2023-11-01 14:23:24

24

4

我正在尝试使用 Hadoop Streaming 在 Hadoop 集群上运行 python 脚本以进行情绪分析。我在本地机器上运行的相同脚本正常运行并提供输出。
要在本地机器上运行，我使用此命令。

$ cat /home/MB/analytics/Data/input/* | ./new_mapper.py

为了在 hadoop 集群上运行，我使用以下命令

$ hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.5.0-mr1-cdh5.2.0.jar -mapper "python $PWD/new_mapper.py" -reducer "$PWD/new_reducer.py" -input /user/hduser/Test_04012015_Data/input/* -output /user/hduser/python-mr/out-mr-out

我的脚本示例代码是

#!/usr/bin/env python
import sys


def main(argv):
##    for line in sys.stdin:
##        print line
    for line in sys.stdin:
        line = line.split(',')
        t_text      = re.sub(r'[?|$|.|!|,|!|?|;]',r'',line[7])
        words    = re.findall(r"[\w']+", t_text.rstrip())
        predicted = classifier.classify(feature_select(words))
        i=i+1
        referenceSets[predicted].add(i)
        testSets[predicted].add(i)
        print line[7] +'\t'+predicted

if __name__ == "__main__":
    main(sys.argv)

Exception 的堆栈跟踪是:

    15/04/22 12:55:14 INFO mapreduce.Job: Task Id : attempt_1429611942931_0010_m_000001_0, Status : FAILED
    Error: java.io.IOException: Stream closed at java.lang.ProcessBuilder$NullOutputStream.write(ProcessBuilder.java:434)
    ...

    Exit code: 134
    Exception message: /bin/bash: line 1:  1691 Aborted 
(core dumped) /usr/lib/jvm/java-7-oracle-cloudera/bin/java
-Djava.net.preferIPv4Stack=true -Dhadoop.metrics.log.level=WARN -Djava.net.preferIPv4Stack=true -Xmx525955249
-Djava.io.tmpdir=/yarn/nm/usercache/hduser/appcache/application_1429611942931_0010/container_1429611942931_0010_01_000016/tmp
-Dlog4j.configuration=container-log4j.properties
-Dyarn.app.container.log.dir=/var/log/hadoop-yarn/container/application_1429611942931_0010/container_1429611942931_0010_01_000016 -Dyarn.app.container.log.filesize=0 
-Dhadoop.root.logger=INFO,CLA org.apache.hadoop.mapred.YarnChild 192.168.0.122 48725 attempt_1429611942931_0010_m_000006_1 16 > /var/log/hadoop-yarn/container/application_1429611942931_0010/container_1429611942931_0010_01_000016/stdout 2> /var/log/hadoop-yarn/container/application_1429611942931_0010/container_1429611942931_0010_01_000016/stderr
    ....

    15/04/22 12:55:47 ERROR streaming.StreamJob: Job not Successful!
    Streaming Command Failed!

我试图查看日志，但在 hue 中它显示了这个错误。 enter image description here 请给我建议，出了什么问题。

最佳答案

您似乎忘记添加文件 new_mapper.py到你的工作。

基本上，您的作业会尝试运行 python 脚本 new_mapper.py ，但是运行映射器的服务器上缺少此脚本。

您必须使用选项 -file <local_path_to_your_file> 将此文件添加到您的作业中.

请参阅此处的文档和示例:https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/HadoopStreaming.html#Streaming_Command_Options

关于Python Hadoop 流错误 "ERROR streaming.StreamJob: Job not Successful!"和堆栈跟踪 : ExitCodeException exitCode=134，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29791437/

24

4

0

文章推荐： hadoop - hadoop hive shell 中绝对 URI 中的相对路径

文章推荐：使用 pysftp 通过 HTTP 代理进行 Python 连接

文章推荐： hadoop - Ambari 2.0 安装失败， ""

php - xdebug 跟踪/跟踪 php 回显，打印调用
有没有办法在 xdebug 跟踪输出中查看 echo 或 print 函数调用。我正在为我在我的服务器中运行的所有脚本寻找一个全局配置(或一种方法)。例子: 我希望跟踪输出显示 echo 调用。默
grails - 跟踪/BPT陷阱:5个正在运行的grails 2.1.0应用-跟踪/BPT陷阱:5
我将应用程序从2.0.0M2升级到了2.1.0，但是当我尝试运行该应用程序时，出现此错误: Note: /Volumes/Info/proyectos-grails/vincoorbis/Member
共享点日志记录/跟踪
我如何在共享点中执行日志记录。我想使用跟踪。以便它记录 12 个配置单元日志。最佳答案微软提供了一个例子: http://msdn.microsoft.com/en-us/library/aa9
Android - 跟踪
如何跟踪 eclipse 和 android 模拟器的输出。我习惯于在 Flash 和 actionscript 中这样做。在 AS3 中它将是: trace('我的跟踪语句'); 最佳答案您有几
Postgresql 跟踪
是否可以在 Postgresql 上进行查询跟踪？我在带有 OLEDB 界面的 Windows 上使用 9.0。此外，我需要它是实时的，而不是像默认情况下那样缓冲... 最佳答案我假设您的意思是在
trace - HaxeFlixel 跟踪
第一天 HaxeFlixel 编码器。愚蠢的错误，但谷歌没有帮助我。如何使用 Haxe、NME 和 Flixel 追踪到 FlashDevelop 输出。它在使用 C++ 执行时有效，但对 Flas
iPhone:跟踪/识别个人触摸
我有一个关于 iPhone 上跟踪触摸的快速问题，我似乎无法就此得出结论，因此非常感谢任何建议/想法: 我希望能够跟踪和识别 iPhone 上的触摸，即。基本上每次触摸都有一个起始位置和当前/移动位置
php - 跟踪/跟踪Yii错误信息并将其存储在数据库中
我正在做我的大学项目，我只想跟踪错误及其信息。错误信息应该与用户源设备信息一起存储在数据库中(为了检测源设备，我正在使用MobileDetect扩展名)。我只想知道应该在哪里编写代码，以便获得所有错误
azure - 如何利用应用程序洞察进行分布式跟踪/跟踪
我正在 Azure 中使用多个资源，流程如下所示: 从 sftp 获取文件使用 http 调用的数据丰富文件将消息放入队列处理消息调用一些外部电话传递数据我们如何跟踪上述过程中特定“运行”
WCF 跟踪。如何获得关闭连接的确切原因？
在我的 WCF 服务中，当尝试传输大数据时，我不断收到错误:底层连接已关闭:连接意外关闭我想知道引发此错误的具体原因，因此我设置了 WCF 跟踪并可以读取 traces.svclog 文件。问题是
Firebase + GTM 跟踪
我的目标是在 Firebase Analytics 中获取应用数据，在 Google Universal Analytics 中获取其他自定义数据和应用数据。我的问题是我是否在我的应用上安装 Fir
azure - 如何利用应用程序洞察进行分布式跟踪/跟踪
我正在 Azure 中使用多个资源，流程如下所示: 从 sftp 获取文件使用 http 调用的数据丰富文件将消息放入队列处理消息调用一些外部电话传递数据我们如何跟踪上述过程中特定“运行”
Tridion 分析/跟踪
我们正在考虑跟踪用户通过 Tridion 管理的网站的旅程的要求，然后能够根据此行为将此用户识别为“潜在客户”，然后如果他们在之后没有返回，则触发向此用户发送电子邮件X 天。 SmartTarget
debugging - 如何描述本地函数(跟踪)？
在 Common Lisp 中，函数(跟踪名称)可用于查看有关函数调用的输出。如果我的函数是用局部作用域声明的，我如何描述它以进行跟踪？例如，如何跟踪栏，如下: (defun foo (x)
javascript - 跟踪/观察文本框值已更改
有什么方法可以检测文本框的值是否已更改，是用户明确更改还是某些 java 脚本代码修改了文本框？我需要检测这种变化。最佳答案要跟踪用户更改，您可以添加按键处理程序: $(selector).key
c - 跟踪/等待非子进程
int Enable ( int pid) { int status; #if 1 { printf ( "child pid = %d \n", pid ); long ret =
c - 跟踪/监控系统
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
c - 跟踪/包装开放系统调用
我有以下测试代码: #include int main(void) { fprintf(stderr, "This is a test.\n"); int ret = open("s
Java 应用程序分析/跟踪
我有一个闭源 Java 应用程序，供应商已为其提供了用于自定义的 API。由于我没有其他文档，我完全依赖 API 的 javadoc。我想跟踪特定用例在不同类中实际调用的方法。有什么办法可以用 ec
php - 跟踪 For 循环的最后一个
我正在学习 PHP。我在我的一个 php 函数中使用了如下所示的 for 循环。 $numbers = $data["data"]; for ($i = 0;$i send($numbers[

首页

博学

6Ren·AI

商城

Python Hadoop 流错误 "ERROR streaming.StreamJob: Job not Successful!"和堆栈跟踪 : ExitCodeException exitCode=134