amazon-web-services - aws emr s3-dist-cp在CopyFilesReducer.cleanup上，MapReduce作业失败-6ren

amazon-web-services - aws emr s3-dist-cp在CopyFilesReducer.cleanup上，MapReduce作业失败

转载作者：行者123 更新时间：2023-12-02 20:14:57

31

4

具有(学习)AWS EMR集群版本emr-5.31.0
尝试将文件从s3复制到hdfs时，我在主节点上发出了一条命令:s3-dist-cp --src=s3://bigdata-xxxxxxxxx/emrdata/orders.tbl.gz --dest=hdfs:/emrdata/orders.tbl.gz实际上执行了一系列map / reduce作业，其中reduce作业之一失败了:

20/10/20 17:46:29 INFO mapreduce.Job:  map 100% reduce 50%
20/10/20 17:46:31 INFO mapreduce.Job: Task Id : attempt_1603203512239_0014_r_000005_0, Status : FAILED
Error: java.lang.RuntimeException: Reducer task failed to copy 1 files: s3://bigdata-xxxxxxxxx/emrdata/orders.tbl.gz etc
        at com.amazon.elasticmapreduce.s3distcp.CopyFilesReducer.cleanup(CopyFilesReducer.java:67)
        at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:179)
        at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:635)
        at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:390)
        at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:177)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:422)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1893)
        at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:171)

如果有帮助，我有 a full cli output and the task syslog。
该文件是相对较小的归档文件(400MB)
我正在学习AWS EMR环境，因此我可能会丢失一些被认为是理所当然的东西。
集群信息:

Applications:Hive 2.3.7, Pig 0.17.0, Hue 4.7.1, Spark 2.4.6, Tez 0.9.2, Flink 1.11.0, ZooKeeper 3.4.14, Oozie 5.2.0

EC2 instance profile:EMR_EC2_DefaultRole
EMR role:EMR_DefaultRole
Auto Scaling role:EMR_AutoScaling_DefaultRole

我无法确定问题的根本原因或解决方法。

最佳答案

我知道了
使用s3-dist-cp的正确方法是使用存储桶和srcPattern参数。

s3-dist-cp --src=s3://bigdata-xxxxxxxxx/emrdata/ --dest=hdfs:///emrdata/ --srcPattern='orders\.tbl\.gz'

关于amazon-web-services - aws emr s3-dist-cp在CopyFilesReducer.cleanup上，MapReduce作业失败，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64451158/

31

4

0

文章推荐： generics - F# 类型参数缺少约束

文章推荐： controls - openlayers:向功能添加唯一数据并引用它

文章推荐： nginx - 让我们加密失败的授权过程 - docker

mysql - 警告 [LocalManagedConnectionFactory :cleanup] Lock owned during cleanup:
我们在 Jboss EAP 6.20 Beta1 上看到以下警告 2014-04-01 03:00:00,539 WARN [LocalManagedConnectionFactory:cleanu
macos - 为什么 brew cleanup 或 brew cleanup -n 不显示任何输出？
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 9 个月前关闭。 Improve t
TeamCity CleanUp 不清理工件
我们的 TeamCity 服务器现在运行了大约 3 年，每个工件都保存在硬盘上。现在硬盘快满了。我查看了清理规则，有: Everything older than the 5th successfu
自动资源释放的java技术？ "prompt cleanup"？
这个问题已经有答案了: Is there a destructor for Java? (24 个回答) 已关闭 8 年前。我正在将一些 C++ 代码移植到 Java，这些代码使用非常常见的 C++
hadoop - cleanup() 方法如何工作？
我目前是 Hadoop 的新手。所以我在 MapReduce 中解决了这段代码，它找出了“每年‘数据工程师’工作最多的国家/地区的部分”(例如，如果格式为 (Year,Region ,Count(Jo
maven - 如何在所有测试后调用自定义方法/cleanUp？ (盖布和斯波克)
为了在运行测试之前设置环境，我使用了 GebConfig.groovy 类，它在运行测试时作为第一个组件被触发。但我还需要在所有测试完成后将环境恢复到初始状态。我试图覆盖扩展 GebReportin
javascript - 异步函数 'post-cleanup'
我有这样的设置:我尝试使用自定义事件处理程序来处理 .data 哈希，并在处理程序运行后“垃圾收集”它的项目，以避免保留它们不必要地在内存中等等。 .defer() 函数模拟我得到的东西，它根据提供的
java - "cleanup code"是什么意思？
“使用 finally block 允许您运行任何您想要执行的清理类型的语句，无论 protected 代码中发生了什么。”“清理类型语句”和“清理代码”是什么意思？最佳答案如评论中所述，“清理”
java - cleanup(context) 方法有什么作用？
我不明白 Hadoop 中的清理方法到底是做什么的，它是如何工作的？我有以下 Map-Reduce 代码来计算一堆数字的最大值、最小值和平均值。 public class Statistics {
javascript - 引导插件 : How to do proper cleanup on shutdown?
我对此很陌生，并且对垃圾收集对于无需重新启动的插件的确切工作方式感到有点困惑。从我的关闭函数中，我当前调用所有必须进行清理的对象。他们将任何事件处理程序删除到他们可能设置的外部代码中，然后删除自己的
hadoop - Hadoop使用C++管道:如何调用Mapper.cleanup()
使用C++管道api(1.2.0)，如何在映射器的map()阶段之后在Mapper.cleanup()中获得调用？基本上，对于每个块，我想在映射阶段将记录存储在内存中，然后再进行一些处理。欢迎任何提
java - 以编程方式跟踪由 eclipse cleanup 完成的文件更改
我编写了一个 eclipse osgi 插件，它对 eclipse 项目中存在的 java 文件运行清理和格式化操作。比如: 运行包含 eclipse 命令的批处理文件它打开 Eclipse 编辑器
java - Spock:setup() cleanup() 方法中的测试名称和结果
我想知道是否可以在 Spock 测试的生命周期方法中提供以下数据: setup() 方法中的测试名称 cleanup() 方法中的测试名称和测试结果我问的原因是我想将这些元数据发送到数据接收器，而无
结构中的 char* 未被 cleanUp 函数释放()
我读到使用 malloc() 时的规则是始终有一个匹配的 free()。如果一个程序中使用了 7 次 malloc()，则必须有相应数量的 free()。但是，这似乎不适用于我在结构内部 malloc
c++ - 避免 "if failed cleanup"重复的模式
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 5 年前。 Improve this qu
java - 什么时候调用 robot.cleanUp() 合适
我使用 JUnit 和 FEST 对我们的应用程序进行 Swing 集成测试，我在测试用例中多次启动和停止。 @after 是否应该包含对 robot.cleanUp() 的调用？最佳答案一般规则
c# - code cleanup : should fields, 在类的顶部或底部声明变量和属性？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
git: cleanup or delete commit 清理提交历史
文档和搜索让我对如何清理提交历史感到困惑。假设我有一个名为 tests 的分支，我用它来将构建推送到 travis-ci，但我的构建失败了。然后我将不得不做一些小的提交来尝试修复错误消息并重新推送
ruby - Capistrano 配方自动运行部署 :cleanup only when needed
我们每天使用 capistrano(实际上是 webistrano)进行 20 多次部署，但我们遇到了一个问题，即我们服务器上的磁盘空间充满了旧的部署文件夹。我时不时地运行 deploy:clean
svn 清理失败 (cleanup 失败) 的快速解决方法
1、cmd指令，进入.svn目录，找到wc.db文件 sqlite 3 打开 2、对 svn源代码目录右键, clean up, 稍等1至5分钟左右，然后会提示清理成功以上就是小编为

首页

博学

6Ren·AI

商城

amazon-web-services - aws emr s3-dist-cp在CopyFilesReducer.cleanup上，MapReduce作业失败