gpt4 book ai didi

memory - 对于 n>1 的 n 元语法,Stanford-nlp 分类器内存不足

转载 作者:行者123 更新时间:2023-11-30 09:13:35 26 4
gpt4 key购买 nike

我正在尝试运行 20 news text classification example以 n-gram(n=>1,2,3) 作为特征的斯坦福-nlp 分类器,但我继续出现内存不足错误。按照我正在使用的属性和运行它的命令:

2.useSplitWordNGrams=true
2.maxWordNGramLeng=3
2.minWordNGramLeng=1

java -mx1800m -cp $STANFORD_CLASSIFIER_JAR edu.stanford.nlp.classify.ColumnDataClassifier \
-trainFile 20news-devtrain.txt -testFile 20news-devtest.txt \
-2.useSplitWords -2.splitWordsRegexp "\\s+" -prop 20news1.prop

对于一元语法,程序按预期运行。问题是我只有 4G 可用内存,我想知道是否可以用这么少的内存加载像这样的大模型。

我尝试通过在内存中保留带有“word,id”对的哈希值,将每篇文章的每个单词(标记化后)转换为唯一的整数 id,从而减少数据的大小。该方法成功地将尺寸减小了 25%,但仍然无法构建二元模型分类器。

我想在非常大的数据(网页)上使用 stanford-nlp,所以我真的需要知道我是否可以让它在合理的内存量下运行。任何想法将不胜感激!!

干杯,季米特里斯

最佳答案

我无法谈论斯坦福自然语言处理代码,但我可以一般性地回答有关 n 元语法特征的问题。如果您的词汇表中有 v 个项目,则朴素二元模型有 v^2 个参数(三元模型有 v^3 个参数) 。如果您确定需要 n-gram 特征,您应该做的是找到最具辨别力的二元组,并将它们用作特征。看各种feature selection方法来做到这一点。

关于memory - 对于 n>1 的 n 元语法,Stanford-nlp 分类器内存不足,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13674260/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com