gpt4 book ai didi

topic-modeling - MALLET 中 Topic Models 的增量训练

转载 作者:行者123 更新时间:2023-12-03 17:50:23 27 4
gpt4 key购买 nike

根据槌documentation ,可以逐步训练主题模型:

"-output-model [FILENAME] This option specifies a file to write a serialized MALLET topic trainer object. This type of output is appropriate for pausing and restarting training"



我想在一组数据上训练主题,然后用一组不同的数据增加模型。在两个训练步骤之后,我想输出两个数据集的状态(使用 --output-state)。这是我尝试这样做的方法:
# training on the first dataset
../mallet-2.0.7/bin/mallet import-dir --input input/ --keep-sequence --output input.mallet
../mallet-2.0.7/bin/mallet train-topics --input input.mallet --num-topics 3 --output-state topic-state.gz --output-model model

# training on the second dataset
../mallet-2.0.7/bin/mallet import-dir --input input2/ --keep-sequence --output input2.mallet --use-pipe-from input.mallet
../mallet-2.0.7/bin/mallet train-topics --input input2.mallet --num-topics 3 --num-iterations 100 --output-state topic-state2.gz --input-model model

在最后一个命令中,如果我添加“--input-model model”,则输出状态文件中不存在第二个数据集的数据。如果我不添加它,则输出状态文件中不存在第一个数据集的数据。

如果我尝试在代码中向模型添加其他实例:
model.addInstances(instances);
model.setNumThreads(2);
model.setNumIterations(50);
model.estimate();

[...]

model.addInstances(instances2);
model.setNumThreads(2);
model.setNumIterations(50);
model.estimate();

我收到一个错误:
Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: 30
at cc.mallet.topics.ParallelTopicModel.buildInitialTypeTopicCounts(ParallelTopicModel.java:364)
at cc.mallet.topics.ParallelTopicModel.addInstances(ParallelTopicModel.java:276)
at cc.mallet.examples.TopicModel2.main(TopicModel2.java:66)

之前在MALLET名单上也有过类似的问题: http://permalink.gmane.org/gmane.comp.ai.mallet.devel/924 , http://permalink.gmane.org/gmane.comp.ai.mallet.devel/2139

那么是否可以对主题模型进行增量训练?

最佳答案

我认为你是这个对话线程的一部分,现在可能对你有用。

http://comments.gmane.org/gmane.comp.ai.mallet.devel/2153

关于topic-modeling - MALLET 中 Topic Models 的增量训练,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22873273/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com