ubuntu - 在使用 UniDic 2.3.0 构建 MeCab 0.996 用户字典时，如何确定左右上下文 ID 应该是什么？-6ren

ubuntu - 在使用 UniDic 2.3.0 构建 MeCab 0.996 用户字典时，如何确定左右上下文 ID 应该是什么？

转载作者：行者123 更新时间：2023-12-04 18:43:21

32

4

我正在尝试构建 MeCab 0.996带有 UniDic CWJ 2.3.0 的用户字典在 Ubuntu 20.10 上使用以下终端命令:

$ /usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/unidic/unidic-cwj-2.3.0 -u ~/foo/bar/foo.dic -f utf8 -t utf8 ~/foo/bar/foo.csv

其中 foo.csv 是:

ダイバーシティ,,,-200,名詞,普通名詞,一般,*,*,*,ダイバーシティ,ダイバーシティ-diversity,ダイバーシティ,ダイバーシティ,ダイバーシティ,ダイバーシティ,外,*,*,*,*,*,*,体,ダイバーシティ,ダイバーシティ,ダイバーシティ,ダイバーシティ,,,,,

但我得到这个错误:

dictionary.cpp(355) [cid->left_size() == matrix.left_size() && cid->right_size() == matrix.right_size()] Context ID files(/usr/local/lib/unidic/unidic-cwj-2.3.0/left-id.def or /usr/local/lib/unidic/unidic-cwj-2.3.0/right-id.def may be broken

这个 Unresolved GitHub 问题帖子似乎是相关的，但超出了我的想象: https://github.com/taku910/mecab/issues/42
我可以使用较旧的 unidic-mecab-2.1.2 构建 MeCab 用户词典:

$ /usr/local/libexec/mecab/mecab-dict-index -d ~/mecab/unidic-mecab-2.1.2_src/ -u ~/foo/bar/foo.dic -f utf8 -t utf8 ~/foo/bar/foo.csv
./pos-id.def is not found. minimum setting is used
emitting double-array: 100% |###########################################| 
done!

我还可以使用 unidic-py documentation 中的 reiwa.33.csv 构建用户字典:

/usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/unidic/unidic-cwj-2.3.0 -u ~/foo/bar/reiwa33.dic -f utf8 -t utf8 ~/foo/bar/reiwa.33.csv
/usr/local/lib/unidic/unidic-cwj-2.3.0/pos-id.def is not found. minimum setting is used
reading /home/foo/bar/reiwa.33.csv ... 3
emitting double-array: 100% |###########################################| 
done!

reiwa.33.csv 是:

令和,4786,4786,8205,名詞,固有名詞,一般,*,*,*,レイワ,令和,令和,レーワ,令和,レーワ,固,*,*,*,*,*,*,*,レイワ,レイワ,レイワ,レイワ,"1,0",*,*,*,*
㋿,5969,5969,2588,補助記号,一般,*,*,*,*,,㋿,㋿,,㋿,,記号,*,*,*,*,*,*,*,,,,,*,*,*,*,999999
㋿,4786,4786,3992,名詞,固有名詞,一般,*,*,*,レイワ,令和,㋿,レーワ,㋿,レーワ,固,*,*,*,*,*,*,*,レイワ,レイワ,レイワ,レイワ,"1,0",*,*,*,*

因此，两个 csv 文件之间的区别在于，在 reiwa.33.csv 中为每个表面形式(以及为一些但不是所有条目的 aType 和 lemma_id)指定了左右上下文 ID，但在 foo 中没有。 .csv。
根据 instructions对于 MeCab，mecab-dict-index 将自动分配左右 ID，这似乎是 unidic-mecab-2.1.2 的情况，但不适用于 UniDic 2.3.0。
所以，我想问题变成了:如何确定左右上下文 ID 应该是什么？某处有解释吗？

最佳答案

我能够在 this Qiita post 中找到答案.
要确定左右上下文 ID:

分别查看left-id.def和right-id.def文件:

    $ gedit /usr/local/lib/unidic/unidic-cwj-2.3.0/left-id.def

    $ gedit /usr/local/lib/unidic/unidic-cwj-2.3.0/right-id.def

找到与单词特征匹配的行。
对于一般的外来词名词(例如，ダイバーシティ)，没有
指定重音类型 (aType) 或重音变化类型 (aConType)
值为:

    left-id: 15917 名詞,普通名詞,一般,*,*,*,*,*,外,*,*,*,*,*,*

    right-id: 17160 名詞,普通名詞,一般,*,*,*,*,*,外,*,*,*,*,*,*

因此 foo.csv 应该是:

    ダイバーシティ,15917,17160,-200,名詞,普通名詞,一般,*,*,*,ダイバーシティ,ダイバーシティ-diversity,ダイバーシティ,ダイバーシティ,ダイバーシティ,ダイバーシティ,外,*,*,*,*,*,*,体,ダイバーシティ,ダイバーシティ,ダイバーシティ,ダイバーシティ,*,*,*,*,*

使用 foo.csv 中的 UniDic CWJ 2.3.0 编译 MeCab 字典，然后不会出现“left-or right-id.def may be broken error”:

    $ /usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/unidic/unidic-cwj-2.3.0/ -u ~/foo/bar/foo.dic -f utf8 -t utf8 ~/foo/bar/foo.csv
    /usr/local/lib/unidic/unidic-cwj-2.3.0/pos-id.def is not found. minimum setting is used
    reading /home/foo/bar/foo.csv ... 1
    emitting double-array: 100% |###########################################| 
    done!

注意:reiwa.33.csv 中的值似乎适用于 UniDic 2.1.2。
关于为什么会出现 left/right-id.def 错误以及如何交换 matrix.def 中所有左右值的详细说明，请参阅 this Japanese Stack Overflow post .

关于ubuntu - 在使用 UniDic 2.3.0 构建 MeCab 0.996 用户字典时，如何确定左右上下文 ID 应该是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66299029/

32

4

0

文章推荐： ember.js - 如何从 Controller Action 内部获取父路由模型？

文章推荐： ios7 - NSURLSession 或 NSURLConnection - iOS 6 支持

文章推荐： linux - xdg-open 不打开牛仔裤

mecab - 是否有 mecab(日语单词解析器)算法的描述？
是否有某处描述 Mecab 算法的文档？或者谁能给出一个简单的一段或一页的描述？我发现很难理解现有代码以及数据库包含的内容。我的免费网站和手机教学语言应用程序 (www.jtlanguage.c
nlp - MeCab 输出和标签集是什么？
有人可以告诉我 MeCab 默认输出吗？ MeCab 输出什么注释以及在哪里可以找到 morpho 分析器的标记集 http://mecab.sourceforge.net/ 任何人都可以破译 MeC
nlp - Mecab 输出 - 名称类型列表
meecab 的示例输出: にニニに助詞-格助詞我们将助词(粒子)作为类型，将格助词(格助词)作为PoS。在哪里可以找到 mecab 使用的所有可能类型和 PoS
nlp - 如何向 MeCab 添加停用词？
我想向 MeCab 添加停用词，例如“我”、“你”等。但我在MeCab的手册上找不到任何停用词的信息。最佳答案 MeCab 是一个词性标注器，它不删除停用词。您需要通过处理输出并查看表面形式(文字
php - 如何排除 Mecab 解析器功能障碍
背景:我已经构建了一个自定义搜索引擎，它在英语中运行良好，但在日语中失败，尽管我的主机服务器确认我已经正确安装了日语 mecab 解析器。我自己的检查显示以下内容: 1) 显示创建表: FULLTEX
python-3.x - MeCab 未正确解析
我下载了 MeCab 来解析一些日语文本。为了对其进行测试，我尝试按照一些在线示例进行操作。例如，我逐字遵循了这个人的提示:http://www.robfahey.co.uk/blog/japane
java - MeCab 路径参数在 Windows 上不接受空格
我已经成功使用了MeCab Java打电话Mecab从我的Java代码。我使用以下语句来初始化标记器: tagger = new Tagger("--node-format=%f[7]\\t --un
Python:从解析的查询返回的字符串的 Unicode 编码 (MeCab)
我正在尝试使用一个名为 MeCab 的程序，它对日语文本进行语法分析。我遇到的问题是它返回一个字节字符串，如果我尝试打印它，它会为几乎所有字符打印问号。但是，如果我尝试使用 .decode，它会抛出一
ios - iOS 上 MeCab 日语分词器的选项？
我正在使用位于 https://github.com/FLCLjp/iPhone-libmecab 的 MeCab iPhone 库.我在标记所有可能的单词时遇到了一些麻烦。具体来说，我不能将“吉本兴
Python 2.7 - 如何将 MeCab 解析的信息写入文本文件？
我编写了一个 GUI，它允许日文输入，当您转到文件时 > 解析写入文本文件。然后该文本文件通过 MeCab 运行，其中在单词之间放置空格。之后应该再次写入文本文件，以便在另一个 GUI 窗口中显示。
ruby - 使用 Natto gem (Mecab) 将日文汉字转换为注音假名
使用 Natto gem (MeCab) 是否可以将混合的片假名/平假名/汉字/字母字符串转换为片假名/平假名/字母？ (即转换汉字)。例如我需要转换这个文本: 日本語だぜ、これが。これはカタカナ
c++ - 将旧的 Mecab 库实现到现代 iOS 应用程序中
我正尝试在我一直在开发的新应用程序中使用 Mecab，但我无法让该库正常工作。最初，我尝试了以下应该与 iOS 6 兼容的存储库: https://github.com/gumob/mecab 我尝试
python - 如何在 aws lambda 中添加 mecab 库
我正在尝试将 mecab 库添加到 aws lambda 层，但没有成功。我想要的是将日语和韩语标记化。 token 化就足够了。这是我所做的。 (我引用了这个网站:https://towards
python - 使用 pip 安装 mecab-python3 的问题
今天我一直在尝试安装 this guy，但失败了。 (Python 3.5+ 的 MeCab 库)为了构建一个简单的个性化日语可读性分析工具(作为语言和数据 Nerd 的学习者)。当然，我首先尝试的
java - elasticsearch java.library.pat 错误中没有 MeCab
我无法在elasticsearch中使用mecab tokenizer安装elasticsearch 5.2和mecab-ko、mecab-ko-dict、analysis-mecab-ko(elas
c# - 试图让 libmecab.dll (MeCab) 与 C# 一起工作
我正在尝试使用日语词法分析器 MeCab在 C# 程序(Visual Studio 2010 Express、Windows 7)中，编码出了点问题。如果我的输入(粘贴到文本框中)是这样的: 一方、広
python - 如何使用 pip 在 mac OS 上安装 mecab-python3
我正在尝试通过 pip install mecab-python3 安装 mecab-python3，但出现以下错误。 Collecting mecab-python3 Using cached ht
python - Mac 10.8.3 MeCab Python "Symbol Not found"错误
我安装了“https://code.google.com/p/mecab/downloads/list”。还有 >>> import MeCab Traceback (most recent cal
ubuntu - 在使用 UniDic 2.3.0 构建 MeCab 0.996 用户字典时，如何确定左右上下文 ID 应该是什么？
我正在尝试构建 MeCab 0.996带有 UniDic CWJ 2.3.0 的用户字典在 Ubuntu 20.10 上使用以下终端命令: $ /usr/local/libexec/mecab/mec

首页

博学

6Ren·AI

商城

ubuntu - 在使用 UniDic 2.3.0 构建 MeCab 0.996 用户字典时，如何确定左右上下文 ID 应该是什么？