gpt4 book ai didi

apache-spark - 在 Spark 的 MLlib 中使用的 TFIDF 生成期间出现内存不足异常

转载 作者:行者123 更新时间:2023-11-30 08:32:22 24 4
gpt4 key购买 nike

我在使用 MLlib 的 Naive Baye 分类实现创建用于文档分类的 TFIDF 向量时遇到了内存溢出问题。

http://chimpler.wordpress.com/2014/06/11/classifiying-documents-using-naive-bayes-on-apache-spark-mllib/

收集所有术语的 idf 时会发生内存溢出和 GC 问题。为了了解规模,我从 HBase 读取了大约 615,000 个(大约 4GB 文本数据)小型文档,并使用 8 个内核和 6GB 执行器内存运行 Spark 程序。我尝试过增加并行级别和随机播放内存比例,但没有成功。

如何解决这个 OOM 问题?

谢谢

最佳答案

如何将 Spark RDD 连接到 HBase?您的 HBase 区域有多大?如果您同时加载多个 HBase 区域,并且它们的大小总和大于可用 RAM,则可能会在加载阶段耗尽内存。

避免这种情况的一种方法是编写自己的 HBase 加载器,专门只扫描您感兴趣加载的列,而不是扫描整个区域文件,这可能会大大减少内存消耗。然后,您还可以根据对 HBase 键空间的语义理解来调整正在加载的分区数量,从而进一步调整加载期间的内存消耗。

关于apache-spark - 在 Spark 的 MLlib 中使用的 TFIDF 生成期间出现内存不足异常,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25910642/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com