gpt4 book ai didi

hadoop - 在Spark上处理大文件的方法

转载 作者:行者123 更新时间:2023-12-02 21:02:03 26 4
gpt4 key购买 nike

当我在Spark集群上处理大文件时,发生内存不足。我知道我可以扩展堆的大小。但在更一般的情况下,我认为这不是好方法。我很好奇地将大文件批量拆分为小文件。因此,我们可以批量处理小文件,而不是大文件。

最佳答案

我也遇到了OOM问题。由于spark使用内存来计算,数据,中间文件等全部存储在内存中。我认为缓存或持久化将有所帮助。您可以将存储级别设置为MEMORY_AND_DISK_SER。

关于hadoop - 在Spark上处理大文件的方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42990005/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com