hadoop - 从 SSH 中直接调用 Hadoop 启 Action 业-6ren

hadoop - 从 SSH 中直接调用 Hadoop 启 Action 业

转载作者：可可西里更新时间：2023-11-01 16:34:43

26

4

我已经能够很好地使用 elastic-mapreduce ruby 库启动工作流程。现在我有一个实例在它的工作完成后仍然“活着”。我已经使用 SSH 登录并想开始另一项工作，但是我的各种尝试都失败了，因为 hadoop 找不到输入文件。我试过将输入文件存储在本地和 S3 上。

如何直接从我的 SSH session 中创建新的 hadoop 作业？

我尝试的错误:

(第一次尝试使用本地文件存储，这是我通过使用 SFTP 上传文件创建的)

hadoop jar hadoop-0.20-streaming.jar \
-input /home/hadoop/mystic/search_sets/test_sample.txt \
-output /home/hadoop/mystic/search_sets/test_sample_output.txt \
-mapper /home/hadoop/mystic/ctmp1_mapper.py \
-reducer /home/hadoop/mystic/ctmp1_reducer.py \
-file /home/hadoop/mystic/ctmp1_mapper.py \
-file /home/hadoop/mystic/ctmp1_reducer.py

11/10/04 22:33:57 ERROR streaming.StreamJob: Error Launching job :Input path does not exist: hdfs://ip-xx-xxx-xxx-xxx.us-west-1.compute.internal:9000/home/hadoop/mystic/search_sets/test_sample.txt

(第二次尝试使用 s3):

hadoop jar hadoop-0.20-streaming.jar \
-input s3n://xxxbucket1/test_sample.txt \
-output /home/hadoop/mystic/search_sets/test_sample_output.txt \
-mapper /home/hadoop/mystic/ctmp1_mapper.py \
-reducer /home/hadoop/mystic/ctmp1_reducer.py \
-file /home/hadoop/mystic/ctmp1_mapper.py \
-file /home/hadoop/mystic/ctmp1_reducer.py

11/10/04 22:26:45 ERROR streaming.StreamJob: Error Launching job : Input path does not exist: s3n://xxxbucket1/test_sample.txt

最佳答案

第一个不行。 Hadoop 将在 HDFS 中查找该位置，而不是本地存储。如果您使用 file:// 前缀，它可能会起作用，如下所示:

-input file:///home/hadoop/mystic/search_sets/test_sample.txt

不过，我从来没有尝试过使用流输入，即使它确实有效，它也可能不是最好的主意。

第二个 (S3) 应该可以工作。我们一直这样做。确保文件确实存在:

hadoop dfs -ls s3n://xxxbucket1/test_sample.txt

或者，您可以将文件放在 HDFS 中并正常使用。不过，对于 EMR 中的作业，我通常发现 S3 是最方便的。

关于hadoop - 从 SSH 中直接调用 Hadoop 启 Action 业，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7655056/

26

4

0

文章推荐： C++ 模板和静态成员 - header 中的定义

文章推荐： java - 使用 Java 发送 HTTP 请求 GET/POST 以形成表单？

文章推荐： java - 无法将 HTTP Post 请求发送到登录表单？

PowerShell 启 Action 业增量
我很好奇为什么 Start-Job 会成倍增加。我担心的是我做错了什么，使新工作的 ID 跳了 2。 Start-Job -ScriptBlock {Get-WinEvent -LogName sys
PowerShell 启 Action 业工作目录
有没有办法为 Start-Job 命令指定工作目录？用例: 我在一个目录中，我想使用 Emacs 打开一个文件进行编辑。如果我直接执行此操作，它将阻止 PowerShell，直到我关闭 Emacs。
powershell - 启 Action 业与调用命令 -asjob
我正在尝试在 PowerShell 2.0 中执行基本的后台作业，并且我在 start-job 和 invoke-command -asjob 中看到了不同的东西。如果我这样做: start-job
Jenkins 通过 DSL 启 Action 业，无需等待作业完成
我正在尝试通过 Jenkins DSL 启动一个项目，但不需要等待它完成。基本上我希望它能够启动一项孤儿工作。 node("slave-node") { // Launch pipeline
macos - 由于奇怪的原因，启 Action 业无法执行(3): 8
我正在尝试在 OS X Mountain Lion 10.8.3 中安排一个简单的任务 launchctl start nextstopsun.helloworld 命令不执行脚本并向控制台抛出消息
python - Hadoop错误:启 Action 业时出错，输入路径错误:文件不存在。流命令失败
我在Hadoop集群上运行MRJob，并且出现以下错误: No configs found; falling back on auto-configuration Looking for hadoop
hadoop - 从 SSH 中直接调用 Hadoop 启 Action 业
我已经能够很好地使用 elastic-mapreduce ruby 库启动工作流程。现在我有一个实例在它的工作完成后仍然“活着”。我已经使用 SSH 登录并想开始另一项工作，但是我的各种尝试都失败
python - 在 Hadoop 上使用 mrjob 启 Action 业时出错
我是 hadoop 和 mrjob 的新手，这本书对我的学习帮助很大。我试图在 hadoop 上运行 mrSVM.py，因为它在本地运行良好。但我运行了以下命令:python mrSVM.py -r
powershell - 启 Action 业结果为 "The background process reported an error with the following message: ."
我有一个简单的 Powershell 脚本(正在 Octopus 部署的一个步骤中运行)，我正试图以另一个用户的身份运行它。我们在以后的步骤中需要它(我们平台上的每个应用程序都以其自己的用户帐户运行，
asp.net - 从 ASP.NET IIS 运行时，Powershell 启 Action 业、等待作业、主机线程永远不会退出
我目前正在尝试使用 powershell 构建一个从 IIS 启动的线程清理脚本。我使用 powershell 远程处理创建了一个线程“由所有者终止进程”，从与我的清理脚本相同的服务器列表运行，并且没

首页

博学

6Ren·AI

商城

hadoop - 从 SSH 中直接调用 Hadoop 启 Action 业