gpt4 book ai didi

java - 使用 Mallet Java Api 支持主题建模中的二元组

转载 作者:行者123 更新时间:2023-11-30 06:25:59 24 4
gpt4 key购买 nike

我们想用二元模型建立一个主题模型。在 Java 中实现此功能的推荐方法是什么?

目前,我们使用 Mallet Java API。具体来说,ParallelTopicModel 将 token 作为字符串传递给实例对象的数据参数。

谢谢。

最佳答案

解释 n 元语法的最简单、最可靠的方法是修改输入。例如,您可以将 new york 替换为 new_york,然后使用接受 _ 作为字母字符的模式进行标记。 Mallet 允许您指定一个包含字符串的文件,以便在导入文档时将其视为单个标记:

bin/mallet import-file --help
A tool for creating instance lists of feature vectors from comma-separated-values
...
--replacement-files FILE [FILE ...]
files containing string replacements, one per line:
'A B [tab] C' replaces A B with C,
'A B' replaces A B with A_B
Default is (null)

这种使用模式要求您识别特定的 n 元语法。您还可以修改输入文件以包含所有二元组,因此 to be or not to be 将变为 to_be be_or or_not not_to to_be。我不知道这是否会产生任何有用的东西。

还有一些主题模型变体“原生”支持 n-gram 识别,但会在训练时间和模型质量方面付出巨大代价。我不建议使用其中任何一个。

关于java - 使用 Mallet Java Api 支持主题建模中的二元组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47196112/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com