gpt4 book ai didi

hadoop - 大小> 64 MB的gzip输入文件出现问题

转载 作者:行者123 更新时间:2023-12-02 21:57:53 24 4
gpt4 key购买 nike

我正在运行Hadoop流作业,它只有映射器,没有reducer。我给这个工作4个输入文件,所有这些文件都压缩了,以确保每个输入文件都到一个映射器。两个压缩的输入文件的大小小于64 MB,而其他两个压缩的输入文件的大小大于64MB。作业运行了将近40分钟的长时间,然后失败,并显示“错误:失败的Map Task数量超过了允许的限制。”通常,该工作不应超过1分钟,不确定为什么要持续40分钟

当我检查输出目录时,我看到输出是为两个大小小于64 MB的压缩输入文件生成的,而输出不是为大小大于64 MB的压缩输入文件生成的。

有人看到过这种行为吗?

启 Action 业时,我看到以下消息(如果我将较小尺寸的文件(<64 MB)作为作业的输入传递,则看不到此消息)

2006年12月2日10:39:10 INFO mapred.FileInputFormat:要处理的总输入路径:2
2006年12月2日10:39:10 INFO net.NetworkTopology:添加一个新节点:/10.209.191.0/10.209.191.57:1004
2006年12月2日10:39:10 INFO net.NetworkTopology:添加一个新节点:/10.209.191.0/10.209.191.50:1004
2006年12月2日10:39:10 INFO net.NetworkTopology:添加一个新节点:/10.209.186.0/10.209.186.28:1004
12/12/06 10:39:10 INFO net.NetworkTopology:添加一个新节点:/10.209.188.0/10.209.188.48:1004
2006年12月2日10:39:10 INFO net.NetworkTopology:添加一个新节点:/10.209.185.0/10.209.185.50:1004
2006年12月2日10:39:10 INFO net.NetworkTopology:添加一个新节点:/10.209.188.0/10.209.188.35:1004

最佳答案

如果您定义了自己的FileInputFormat派生类,那么我怀疑您遇到了此错误:
https://issues.apache.org/jira/browse/MAPREDUCE-2094

如果可以,我建议将isSplitable方法的实现从TextInputFormat复制到您自己的类中。

关于hadoop - 大小> 64 MB的gzip输入文件出现问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9159212/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com