gpt4 book ai didi

java - Mallet:1024GB 内存分配的 java.lang.OutOfMemoryError

转载 作者:塔克拉玛干 更新时间:2023-11-02 19:18:57 24 4
gpt4 key购买 nike

我正在尝试使用 Mallet 在 ~1GB 的文本文件上运行主题建模,其中包含 11403956 行。从 mallet 目录,我 cdbin 并将内存要求升级到 1024GB:

设置 MALLET_MEMORY=1024G

然后我尝试运行命令:

bin/mallet import-file --input combined_bios.txt --output dh_size.mallet --keep-sequence --remove-stopwords

但是,这会引发内存错误:

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at gnu.trove.TObjectIntHashMap.rehash(TObjectIntHashMap.java:170)
at gnu.trove.THash.postInsertHook(THash.java:359)
at gnu.trove.TObjectIntHashMap.put(TObjectIntHashMap.java:155)
at cc.mallet.types.Alphabet.lookupIndex(Alphabet.java:115)
at cc.mallet.types.Alphabet.lookupIndex(Alphabet.java:123)
at cc.mallet.types.FeatureSequence.add(FeatureSequence.java:131)
at cc.mallet.pipe.TokenSequence2FeatureSequence.pipe(TokenSequence2FeatureSequence.java:44)
at cc.mallet.pipe.Pipe$SimplePipeInstanceIterator.next(Pipe.java:294)
at cc.mallet.pipe.Pipe$SimplePipeInstanceIterator.next(Pipe.java:282)
at cc.mallet.types.InstanceList.addThruPipe(InstanceList.java:267)
at cc.mallet.classify.tui.Csv2Vectors.main(Csv2Vectors.java:290)

对于这种情况是否有解决方法?其他人可以提供的任何帮助将不胜感激!

最佳答案

如果您使用的是 Linux 或 OS X,我认为您可能更改了错误的变量。您要更改的那个位于 bin/mallet.bat 中,但您想更改位于 bin/mallet 的可执行文件中的那个(即没有 .bat 文件扩展名):

MEMORY=1g

这也在本 Mallet 教程的“大数据问题”下进行了描述:

http://programminghistorian.org/lessons/topic-modeling-and-mallet

关于java - Mallet:1024GB 内存分配的 java.lang.OutOfMemoryError,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31253528/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com