gpt4 book ai didi

java - Mallet CRF 序列分类训练数据格式

转载 作者:行者123 更新时间:2023-11-30 06:38:30 27 4
gpt4 key购买 nike

我正在尝试使用 Mallet 库训练 CRF 序列模型,但缺少一些重要信息。我在库本身中找到了一个示例:https://github.com/mimno/Mallet/blob/master/src/cc/mallet/examples/TrainCRF.java但是该示例没有说明输入训练数据的格式,因此我不知道如何重新创建它。

Mallet 确实有一个数据导入示例,位于 http://mallet.cs.umass.edu/import-devel.php但这个特定的例子似乎是针对文档分类的,而不是我的用例 CRF 序列模型。

我尝试将输入训练数据放入http://mallet.cs.umass.edu/sequences.php中使用的形式即

Bill CAPITALIZED noun
slept non-noun
here LOWERCASE STOPWORD non-noun

以及表单中的测试数据

CAPITAL Al
slept
here

但是根据输出日志,它似乎不是正确的格式。例如,日志中的一行是 INFO:testing label sleep P � R 0 F1 �slept 不是标签 - 标签应该是 noun code> 或非名词

因此,如果有人能告诉我训练数据应该采用什么格式,那就太好了。

最佳答案

您链接到的代码示例有 the line that refers to the training file注释掉了。您的代码是否可能尝试在测试文件上进行训练?这会导致 slept 看起来像一个标签,因为它位于行的末尾,并且会解释错误。

郑重声明,我使用上面提供的测试数据(使用命令行,而不是代码示例)尝试了该示例,并且它有效,因此测试/训练格式似乎没问题。

关于java - Mallet CRF 序列分类训练数据格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44814603/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com