gpt4 book ai didi

hadoop - Mapreduce combinefileinputformat java.lang.reflect.InvocationTargetException 而两个作业访问相同的数据

转载 作者:可可西里 更新时间:2023-11-01 14:53:40 25 4
gpt4 key购买 nike

Hadoop Mapreduce CombineFileInputFormat 在读取大量小文件时效果很好,但我注意到有时作业会因以下异常而失败,

java.lang.RuntimeException: java.lang.reflect.InvocationTargetException at org.apache.hadoop.mapreduce.lib.input.CombineFileRecordReader.initNextRecordReader(CombineFileRecordReader.java:164) at org.apache.hadoop.mapreduce.lib.input.CombineFileRecordReader.nextKeyValue(CombineFileRecordReader.java:67) at org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.nextKeyValue(MapTask.java:483) at org.apache.hadoop.mapreduce.task.MapContextImpl.nextKeyValue(MapContextImpl.java:76) at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.nextKeyValue(WrappedMapper.java:85) at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:139) at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:672) at org.apache.hadoop.mapred.MapTask.run(MapTask.java:330) at org.apache.hadoop.mapred.Child$4.run(Child.java:268) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.

我注意到只有当其他一些 mapreduce 作业同时在同一数据上运行时才会发生这种情况,否则它会按预期工作。

在类似条件下运行 hive 查询时,甚至会生成相同的异常。

我一直在寻找解决方案或可能的原因。

最佳答案

最后我找到了这个问题的原因,实际上我一直在使用带有 gzip 的 CombineFileInputFormat,所以第一个运行的作业是在同一文件夹中提取 gzip 文件并在完成时将其删除,但是当我运行另一个作业时同时,它还在其输入中获取由第一个作业解压缩的文件。

所以在执行第二个作业之间解压缩的文件被第一个作业删除,这实际上导致了错误。

hive 的情况与此类似。

关于hadoop - Mapreduce combinefileinputformat java.lang.reflect.InvocationTargetException 而两个作业访问相同的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27119355/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com