gpt4 book ai didi

nlp - MeCab 输出和标签集是什么?

转载 作者:行者123 更新时间:2023-12-01 18:30:21 25 4
gpt4 key购买 nike

有人可以告诉我 MeCab 默认输出吗? MeCab 输出什么注释以及在哪里可以找到 morpho 分析器的标记集

http://mecab.sourceforge.net/

任何人都可以破译 MeCab 的输出吗?

<s>
ブギス・ジャンクション ブギス・ジャンクション ブギス・ジャンクション 名詞-一般
に ニ に 助詞-格助詞-一般
は ハ は 助詞-係助詞
最も モットモ 最も 副詞-一般
買い カイ 買う 動詞-自立 五段・ワ行促音便 連用形
物慣れ モノナレ 物慣れる 動詞-自立 一段 連用形
し シ する 動詞-自立 サ変・スル 連用形
た タ た 助動詞 特殊・タ 基本形
人々 ヒトビト 人々 名詞-一般
を ヲ を 助詞-格助詞-一般
も モ も 助詞-係助詞
魅了 ミリョウ 魅了 名詞-サ変接続
する スル する 動詞-自立 サ変・スル 基本形
品 シナ 品 名詞-一般
揃え ソロエ 揃える 動詞-自立 一段 連用形
が ガ が 助詞-格助詞-一般
あり アリ ある 動詞-自立 五段・ラ行 連用形
ます マス ます 助動詞 特殊・マス 基本形
。 。 。 記号-句点
</s>

最佳答案

示例中的输出格式似乎是 chasen2,它是在 dicrc 文件中定义的。那将是:

; ChaSen (include spaces)
node-format-chasen2 = %M\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
unk-format-chasen2 = %M\t%m\t%m\t%F-[0,1,2,3]\t\t\n
eos-format-chasen2 = EOS\n

对于正常的节点格式,这将是:

1. surface value, including any whitespace
2. \t
3. reading
4. \t
5. root form
6. \t
7. part of speech
8. part of speech, subtype 1
9. part of speech, subtype 2
10. part of speech, subtype 3
11. \t
12. conjugation
13. \t
14. inflection
15. newline

其中第 7 项到第 10 项用连字符分隔。

有关更多详细信息,您应该查看出力フォーマット documentation对于麦卡布。

编辑:更新了 MeCab 输出格式说明页面的链接。

关于nlp - MeCab 输出和标签集是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5578791/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com