java - 参数个数必须始终为偶数 : opennlp-6ren

java - 参数个数必须始终为偶数 : opennlp

转载作者：行者123 更新时间：2023-11-30 10:44:29

24

4

我一直在尝试使用命令行界面来训练我的模型，如下所示:

opennlp TokenNameFinderTrainer -model en-ner-pincode.bin -iterations 500 \ -lang en -data en-ner-pincode.train -encoding UTF-8

控制台输出为:

Number of parameters must be always be even
Usage: opennlp TokenNameFinderTrainer[.evalita|.ad|.conll03|.bionlp2004|.conll02|.muc6|.ontonotes|.brat] [-factory factoryName] [-resources resourcesDir] [-type modelType] [-featuregen featuregenFile] [-nameTypes types] [-sequenceCodec codec] [-params paramsFile] -lang language -model modelFile -data sampleData [-encoding charsetName]

如果我不包括迭代次数，它工作正常。有人知道这背后的原因吗？

谢谢!

最佳答案

其实问题是

    -params paramsFile
            training parameters file.
    -iterations num
            number of training iterations, ignored if -params is used.
    -cutoff num
            minimal number of times a feature must be seen, ignored if -params is used.

如果有人使用params，那么iterations 和cutoff 将被忽略。因此，对于您的情况，会显示此信息消息。

资源链接:

Tokenizer Training : Training Tool

更新:

所以，请使用 ChunkerTrainerME 而不是 TokenNameFinderTrainer

你的命令应该如下所示

opennlp ChunkerTrainerME -model en-ner-pincode.bin -iterations 500 \ -lang en -data en-ner-pincode.train -encoding UTF-8

UPDATE2:转换数据

我将使用西类牙语数据作为引用，但它与荷兰语的操作相同。您只需要记住将“-lang es”更改为“-lang nl”并使用正确的培训文件即可。所以要将信息转换为 OpenNLP 格式:

$ opennlp TokenNameFinderConverter conll02 -data esp.train -lang es -types per > es_corpus_train_persons.txt

您也可以选择转换训练测试样本。

$ opennlp TokenNameFinderConverter conll02 -data esp.testa -lang es -types per > corpus_testa.txt
$ opennlp TokenNameFinderConverter conll02 -data esp.testb -lang es -types per > corpus_testb.txt

使用西类牙语数据进行训练

为名称查找器训练模型:

\bin\opennlp TokenNameFinderTrainer -lang es -encoding u
tf8 -iterations 500 -data es_corpus_train_persons.txt -model es_ner_person.bin

UPDATE3:转换数据(可选)

将信息转换为 OpenNLP 格式:

$ opennlp TokenNameFinderConverter conll03 -lang en -types per -data eng.train > corpus_train.txt

您也可以选择转换训练测试样本。

$ opennlp TokenNameFinderConverter conll03 -lang en -types per -data eng.testa > corpus_testa.txt
$ opennlp TokenNameFinderConverter conll03 -lang en -types per -data eng.testb > corpus_testb.txt

用英文数据训练

您可以通过这种方式为名称查找器训练模型:

$ opennlp TokenNameFinderTrainer.conll03 -model en_ner_person.bin -iterations 500 \
                                 -lang en -types per -data eng.train -encoding utf8

如果您已经转换了数据，那么您可以通过这种方式训练名称查找器的模型:

$ opennlp TokenNameFinderTrainer -model en_ner_person.bin -iterations 500 \
                                 -lang en -data corpus_train.txt -encoding utf8

关于java - 参数个数必须始终为偶数 : opennlp，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37383509/

24

4

0

文章推荐： java - 检查 AlertDialog 的标题和消息

文章推荐： java - 带中文的 Word2Vec

list - 查找列表中的 N 个数
这个问题在这里已经有了答案: Prolog - count repetitions in list (3 个答案) 关闭 7 年前。所以我正在尝试创建一种方法来确定列表中 N 的数量。我已经试验了
c - 从c中的文件中读取分号后的整数 "unfixed"个数
使用 sscanf 或任何其他命令从分号后的文件读取的最佳方法是什么，例如，如果我的文件有 5: 4 5 6 7。如何将冒号后的值存储在数组中。此外，分号后面的整数数量可能会有所不同，即在上面给出的示
java - 返回第 n 个数
我正在尝试返回第 n 个数字。如果数字是 3 或 7 的倍数，则从 1 开始，则跳过该数字并获取下一个数字。但是，如果数字是 3 和 7 的倍数，则不会跳过该数字。 public int Multip
php - 获取最后一个元素的 x 个数
如何有效地从末尾获取一定数量的元素？ 1 looks like 2 three!! 例如，如何获取最后 2 个 div 的内容？最佳答案 $(document).ready(function(){
c++ - 随机数总是产生 1 个数
//Generate Food Personality for(i=0; i
java - 查找未排序数组中最大的 K 个数
我试图在给定的排序数组中找到最大的 K 个数。例如:输入 -> [ 5, 12, 45, 32, 9, 20, 15]输出 -> K = 3, [45, 32, 20] 到目前为止我编写的代码返回最
c++ - 计算两个数的超表中的第 N 个数
两个数字表 a 和 b 被写入并按升序合并在一起，并删除重复项。现在的问题是在这个 super 表中找到比 O(n) 复杂度更好的 nth 数。 Limits 1 #include using nam
algorithm - 在求和数组中找到第 k 个数
给定一个包含 N 个元素的数组 A，我需要找到对 (i,j) 使得 i 不等于 j 并且如果我们为所有对 (i, j) 然后它来到第k个位置。示例:让 N=4 和数组 A=[1 2 3 4] 如果
algorithm - 找出集合中不存在的第 n 个数
给定一组跳过的数字，我需要找到该组中不存在的第 N 个数字。示例: 给定一组 [1, 4, 5] 一些结果: 对于 N = 1 结果 0 对于 N = 2 结果 2(因为 1 被跳过) 对于 N =
algorithm - 两个数的倍数列表中的第 n 个数
几个月前在亚马逊的招聘挑战中遇到了这个问题。给定两个数字 a 和 b 及其倍数的升序列表，找出第 n 个倍数。例如，如果 a = 4 , b = 6 和 n = 6 那么答案是 18因为列表是 4
python - 在一个表达式中打印斐波那契数列的前 n 个数
所以我最近一直在研究 Python，我试图找到一种方法来在单个表达式中输出斐波那契数列的第 n 个数。这是我到目前为止编写的代码: (lambda f: f if f 1 # n == 2 -> 1
c++ - 如何找到分形序列中的第 N 个数？
作业是编写一个 C++ 程序，它接受输入数字 n 并输出序列中的第 n 个数字: 1 1 2 1 2 3 1 2 3 4 1 2 3 4 5 1 2 3 4 5 6 ... 这是我到目前为止想出的:
c++ - 数组中最小的 2 个数
问题很简单(答案很可能):如何找到数组中最小的 2 个数字？ for ( i = 1; i 关于c++ - 数组中最小的 2 个数，我们在Stack Overflow上找到一个类似的问题： ht
ruby - 你如何计算Nokogiri节点后代的 "levels"个数？
您可以调用Nokogiri::XML::Node#ancestors.size 来查看节点的嵌套深度。但是有没有办法确定嵌套最深的子节点的嵌套深度呢？或者，您如何找到从一个节点下降的所有叶节点？最
c - 使用 c 查找斐波那契数中的第 n 个数
这个任务是找到n个数字的fibanocci。任务: 1.找出n个数的斐波那契数。 2.使用变量n,first=0,second=1,next,c。输入格式:使用 printf 语句。使用 scanf
javascript - 每 10 个元素添加 x 个数
我想添加每 10 个元素的数量。例如， function myFunction() { for (var i = 1; i "; } } 输出: 1,2,3,4,5,6,7,8,9,
计算斐波那契数列的第 n 个数，其中 n 在命令行中输入
我想编写一个程序来计算斐波那契数列的第 n 个数，这是我使用 printf 和 scanf 完成的。但我希望更改我的程序，以便在命令行中输入序列号，而不是在程序提示时输入。这就是我想出的。它可以编译，
scheme - 从 Scheme 列表中查找最大的 K 个数
我有一个方案中的对象列表。每个对象都与一个可以在运行时计算的置信度值相关联。我想找到具有最高置信度值的前 50 个此类对象。示例:((WordPair1) (WordPair2)) 等等都是我的对象。
algorithm - 查找给定二进制数字设置为 0 的第 N 个数
我正在寻找一种给定目标的算法，返回目标位为 0 的第 N 个数字。例如，对于n={0,1,2,3}和target=1的输入，输出将是(二进制) 000,001,100,101 最佳答案只写值N-1
c++ - 找出 vector 中最大的 3 个数
我正在尝试创建一个函数来获取 vector 中的 3 个最大数字。例如:数字:1 6 2 5 3 7 4结果:5 6 7 我想我可以对它们进行 DESC 排序，在开始时获取 3 个数字，然后再对它们进

首页

博学

6Ren·AI

商城