gpt4 book ai didi

java - Mallet 文档分类 - 减少词汇量

转载 作者:行者123 更新时间:2023-12-02 12:51:47 25 4
gpt4 key购买 nike

我用 Mallet 训练了 maxent 文档分类模型,结果是 130MB,这对于我希望运行它的实例来说太大了。我想知道是否有一种方法可以潜在地减少模型的词汇量,从而减少整体模型的大小。有管道可以做到这一点吗?我当前使用的管道是

 Pipe instancePipe = new SerialPipes(new Pipe[]{
new Target2Label(), //creates labels
new Input2CharSequence("UTF-8"), //read the file as string
new CharSequence2TokenSequence(), //tokenize the string
new TokenSequenceLowercase(), //lowercase the tokens
new TokenSequenceRemoveStopwords(false), //remove stopwords
new TokenSequence2FeatureSequence(), //convert tokens to features
new FeatureSequence2FeatureVector(), //create feature vector
//new PrintInputAndTarget() //print everything
});

任何其他减小模型尺寸的技巧也会有所帮助

最佳答案

最简单的方法是在初次导入后尝试修剪词汇表。使用

bin/mallet prune --help

查看选项。

关于java - Mallet 文档分类 - 减少词汇量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44577090/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com