shell - 将目录传递给 hadoop streaming : some help needed-6ren

shell - 将目录传递给 hadoop streaming : some help needed

转载作者：可可西里更新时间：2023-11-01 14:50:28

28

4

上下文是我正在尝试在 Amazon EMR (Web UI) 上使用我运行的 bash 脚本运行流式作业:

-input s3://emrdata/test_data/input -output s3://emrdata/test_data/output -mapper
s3://emrdata/test_data/scripts/mapperScript.sh -reducer NONE

输入目录中有子目录，这些子目录中有 gzip 数据文件。

mapperScript.sh 失败的相关部分是:

for filename in "$input"/*; do

dir_name=`dirname $filename`
fname=`basename $filename`

echo "$fname">/dev/stderr

modelname=${fname}.model

modelfile=$model_location/$modelname

echo "$modelfile">/dev/stderr

inputfile=$dirname/$fname

echo "$inputfile">/dev/stderr

outputfile=$output/$fname

echo "$outputfile">/dev/stderr

# Will do some processing on the files in the sub-directories here

done # this is the loop for getting input from all sub-directories

基本上，我需要在流模式下读取子目录，当我运行它时，hadoop 提示说:

2013-03-01 10:41:26,226 ERROR
org.apache.hadoop.security.UserGroupInformation (main):               
PriviledgedActionException as:hadoop cause:java.io.IOException: Not a
file:      s3://emrdata/test_data/input/data1 2013-03-01 10:41:26,226
ERROR org.apache.hadoop.streaming.StreamJob (main):  Error Launching
job : Not a file: s3://emrdata/test_data/input/data1

我知道有人问过类似的问题 here

那里的建议是编写自己的 InputFormat。我想知道我是否在编写脚本/提供 EMR 输入的方式中遗漏了其他内容，或者是否用 Java 编写自己的 InputFormat 是我唯一的选择。

我也尝试通过“input/*”向 EMR 提供我的输入，但没有成功。

最佳答案

似乎虽然可能有一些临时解决方法，但本质上 hadoop 还不支持这个，因为您可能会看到这个 here 上有一个开放的票证.因此 inputpatth/*/* 可能适用于 2 级子目录，但可能无法进一步嵌套。

您现在可以做的最好的事情是获取不带任何子目录的文件/文件夹的列表，并在创建输入路径的 csv 列表后递归添加它们。您可以使用像 s3cmd 这样的简单工具为此。

关于shell - 将目录传递给 hadoop streaming : some help needed，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15156067/

28

4

0

文章推荐： hadoop - DataNode 未在任何节点上启动

文章推荐： javascript - ng-repeat 上的 AngularJs 过滤器

文章推荐： java - 在 Flying Saucer PDF 生成器中使用主要字体和后备字体

PHP 命名空间 : If I'm not going to need to redeclare already taken functions do I need them?
我想知道，如果我的函数没有相似的名称，我是否需要使用命名空间？另外我无法掌握从特定文件夹导入所有命名空间的方法... 最佳答案 I'm wondering, that if my functions
python - 2to3 说 "No changes needed"，然后是 "files that need to be modified"
我运行 2to3 -f all -f idioms -f buffer -f set_literal -f ws_comma foo.py 输出: RefactoringTool: No change
ruby-on-rails - RoR 如何获取/needs/4 而不是/needs.4 的button_to 路径？
我对 RoR 还是很陌生，我正在尝试使用 button_to delete 按钮删除一个对象。但是，使用我编写的代码，当我尝试将它获取到 destroy 方法的/needs/:id 时，它会将我带到/
flutter - RenderBox 未布局 : RenderFlex#4a60a NEEDS-PAINT NEEDS-COMPOSITING-BITS-UPDATE
当我运行代码时，我在 DEBUG Console 中发现了这个错误如下图所示错误: Restarted application in 2,804ms. [38;5;248m════════ Excep
python - 在 Python : Does it need to return a list and does the list need to be sorted? 中实现 `__dir__`
我有一个实现 __dir__ 方法的类。但是，我并不完全确定 dir API 的一些细节。 A:__dir__ 是否真的需要返回一个列表？我的实现是使用 set 来避免两次列出属性，我需要在返回之前将
python - 提高 NeedDownloadError ('Need ffmpeg exe. ' NeedDownloadError : Need ffmpeg exe)
我正在尝试执行对非官方 Instagram API python 库的调用，在我修复了几个需要依赖项的错误之后，我被困在了这个错误上。 File "C:\Users\Pablo\Desktop\tx
dart - Flutter 又抛出一个异常 : RenderBox was not laid out: RenderRepaintBoundary#eaea6 NEEDS-LAYOUT NEEDS-PAINT
我正在使用 SingleChildScrollView 和 Column 来显示滑动条和 gridview。如果我在我的专栏中使用一些其他小部件，如文本、图像，应用程序显示正常。但是我的swiper
plugins - 错误 : you need to resolve your current index first plugins/macos/spotify: needs merge
我正在尝试卸载 zsh 插件 (macos)，我修改了 .zshrc 文件并从中删除了 macos >plugin 列表，并删除路径 ~/.oh-my-zsh/plugins 中的 macos 文件
plugins - 错误 : you need to resolve your current index first plugins/macos/spotify: needs merge
我正在尝试卸载 zsh 插件 (macos)，我修改了 .zshrc 文件并从中删除了 macos >plugin 列表，并删除路径 ~/.oh-my-zsh/plugins 中的 macos 文件
Flutter 应用程序错误 - RenderBox 未布局 : RenderFlex#0bf43 relayoutBoundary=up6 NEEDS-PAINT NEEDS-COMPOSITING-BITS-UPDATE
Exception caught by rendering library ═════════════════════════════════ RenderBox was not laid out:
python线程事件: why do we need clear()
我对 Python 很陌生。我正在试用 threading模块。我遇到了 Event对象。事件对象有wait set clear职能。我了解等待、设置和清除正在做什么。但是我不太明白为什么会有一个单
SQL服务器: need to escape [?
我需要在 SQL Server 的 sql 查询中转义 [ select * from sometable where name like '[something]'; 我实际上正在寻找某个东西之前的
Java时区: why Offset is needed
我的要求是这样的: 我在数据库和时区中保存以毫秒为单位的时间。例如，以毫秒为单位的时间是 1223123123232长时区是 Asia/Calcutta 。我必须将其转换为 Africa/Asmara
MySQL查询: help needed
我的表中有两个整数列，其中第一列填充了一些随机数，第二列为空。现在是否可以将第一列按升序排序，同时按降序排序并显示为第二列？我有下表的示例。初始表: col1 col2 5 7 3 9
iOS : Is this need to release
我正在使用 Instruments 检查我的应用程序的内存泄漏并向我展示: NSArray *nib = [[NSBundle mainBundle] loadNibNamed:@"ChangeAcc
c++ - 右值引用用法 : needed?
我有课 class Person { // some other fields for this object std::vector relatives; } 然后是一个返回 Person
css - 粘性页脚 : Why is :after needed?
在下面的代码中，为什么需要 .page-wrap:after？理论上，如果没有这个，粘性页脚不应该工作吗？为什么不呢？ * { margin: 0; } html, body { heigh
Python内存泄漏: do I need to delete?
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 8 年前。 Improve th
database - 图数据库 : why we need it?
我看过维基百科的图数据库，还是不明白。什么是“无索引邻接”？可不可以理解为“不是把主键存到其他表的行，而是直接存这些行的物理位置” 最佳答案当您的数据可以表示为图形( map 上的路线、一些树等
AngularJS 和谷歌云端点 : walk through needed
我是 AngularJS 的新手，但我真的很喜欢 AngularJS 的工作方式，所以我想将它部署为我的 Google 云端点后端的客户端。然后我立即遇到两个问题: 1、放在哪里myCallback

首页

博学

6Ren·AI

商城

shell - 将目录传递给 hadoop streaming : some help needed