gpt4 book ai didi

hadoop - 在RecordReader初始化之前,Hadoop EMR作业的内存不足

转载 作者:行者123 更新时间:2023-12-02 21:36:26 25 4
gpt4 key购买 nike

我试图找出是什么原因导致emr作业在开始处理文件输入之前就耗尽内存。我正在
在我的RecordReader尚未初始化之前(也就是在它甚至试图解压缩文件并对其进行处理之前),“java.lang.OutOfMemoryError无法转换为java.lang.Exception”错误。我正在大量输入的目录上运行我的工作。我可以在较小的输入集上完成我的工作。有人有什么想法吗?

最佳答案

我意识到答案是主节点上的元数据开销过多。主节点必须为每个将要处理的文件存储约150 kb的数据。拥有数百万个文件,这可能是千兆字节的数据,这太多了,并导致主节点崩溃。

这是更多信息的好来源:http://www.inquidia.com/news-and-info/working-small-files-hadoop-part-1#sthash.YOtxmQvh.dpuf

关于hadoop - 在RecordReader初始化之前,Hadoop EMR作业的内存不足,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31928425/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com