- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在使用位于 https://github.com/FLCLjp/iPhone-libmecab 的 MeCab iPhone 库.我在标记所有可能的单词时遇到了一些麻烦。具体来说,我不能将“吉本兴业”标记为“吉本”和“兴业”两部分。我可以使用任何选项来解决此问题吗? iPhone 库不公开任何内容,但它在 objective-c 包装器下使用 C++。我假设一定有某种设置可以更改以提供更细粒度的控制,但我不知道从哪里开始。
顺便说一下,如果有人想标记这个“mecab”可能是合适的。我还不能创建新标签。
更新:iOS 库正在调用 libmecab.cpp 中定义的 mecab_sparse_tonode2()。如果有人能指出有关该文件的一些英文文档,这可能就足够了。
最佳答案
其中没有任何特定于 iOS 的东西。您与 mecab(可能是 ipadic)一起使用的字典包含公司名称吉本兴业的条目。尽管名称的两个部分也被列为单独的名词,但 mecab 强烈倾向于将复合名称标记为一个词。
Mecab 缺少允许用户选择是否应将化合物拆分为多个部分的功能。请注意,这样的功能通常很难实现,因为并不是每个人都同意哪些化合物可以拆分,哪些不能。例如。容疑者是由容疑和者合成的吗?从纯粹的形态学角度来看也许是,但对于大多数实际应用来说可能不是。
如果您有一个要分割的化合物列表,一个快速的解决方法是为它们所包含的部分创建一个用户词典,并让 mecab 在主词典之外使用它。
有关如何执行此操作的日语文档 here .对于您的特定示例,它将涉及以下步骤。
用两个词条做一个用户字典,一个是吉本,一个是兴业:
吉本,,,100,名詞,固有名詞,人名,名,*,*,よしもと,ヨシモト,ヨシモト
興業,,,100,名詞,一般,*,*,*,*,こうぎょう,コウギョウ,コウギョウ
我怀疑这两个条目已经存在于默认字典中,但是通过将它们添加到用户字典并指定一个相对较低的特异性指示符(我对两者都使用了 100
- 较低的, split 的可能性越大),你可以让 mecab 倾向于更喜欢部分而不是整体。
编译用户字典:
$> $MECAB/libexec/mecab/mecab-dict-index -d /usr/lib64/mecab/dic/ipadic -u mydic.dic -f utf-8 -t utf-8 ./mydic
您可能需要调整命令。以上假设:
Mecab 是从 $MECAB
中的源代码安装的。如果您使用由包管理器安装的 mecab,您可能很难找到 mecab-dict-index
工具。最好从源安装。
默认字典在 /usr/lib64/mecab/dict/ipadic
中。这不是 mecab 包的一部分;它作为一个单独的包提供(例如 this ),您可能也很难找到它。
mydic
是在步骤 1 中创建的用户词典的名称。mydic.dic
是您将作为输出获得的已编译词典的名称 (不需要存在)。
系统字典(-t
选项)和用户字典(-f
选项)都使用 UTF-8 编码。这可能是错误的,在这种情况下,您稍后会在使用 mecab 时收到错误消息。
修改 mecab 配置。在系统范围的安装中,这是一个名为 /usr/lib64/mecab/dic/ipadic/dicrc
或类似名称的文件。在您的情况下,它可能位于其他地方。将以下行添加到配置文件的末尾:
userdic = home/myhome/mydic.dic
确保上面编译的字典的绝对路径是正确的。
如果您随后针对您的输入运行 mecab,它会将化合物拆分成多个部分(我在 Linux 系统上使用 mecab 0.994 对其进行了测试)。
更彻底的修复方法是获取默认词典的来源并手动删除所有要拆分的复合名词,然后重新编译词典。作为一般性评论,在较长一段时间内将 CJK 分词器用于生产模式下的严肃应用程序通常需要定期进行一定量的字典维护(添加/删除条目)。
关于ios - iOS 上 MeCab 日语分词器的选项?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14690036/
是否有某处描述 Mecab 算法的文档? 或者谁能给出一个简单的一段或一页的描述? 我发现很难理解现有代码以及数据库包含的内容。 我的免费网站和手机教学语言应用程序 (www.jtlanguage.c
有人可以告诉我 MeCab 默认输出吗? MeCab 输出什么注释以及在哪里可以找到 morpho 分析器的标记集 http://mecab.sourceforge.net/ 任何人都可以破译 MeC
meecab 的示例输出: に ニ ニ に 助詞-格助詞 我们将助词(粒子)作为类型,将格助词(格助词)作为PoS。在哪里可以找到 mecab 使用的所有可能类型和 PoS
我想向 MeCab 添加停用词,例如“我”、“你”等。但我在MeCab的手册上找不到任何停用词的信息。 最佳答案 MeCab 是一个词性标注器,它不删除停用词。 您需要通过处理输出并查看表面形式(文字
背景:我已经构建了一个自定义搜索引擎,它在英语中运行良好,但在日语中失败,尽管我的主机服务器确认我已经正确安装了日语 mecab 解析器。我自己的检查显示以下内容: 1) 显示创建表: FULLTEX
我下载了 MeCab 来解析一些日语文本。为了对其进行测试,我尝试按照一些在线示例进行操作。 例如,我逐字遵循了这个人的提示:http://www.robfahey.co.uk/blog/japane
我已经成功使用了MeCab Java打电话Mecab从我的Java代码。我使用以下语句来初始化标记器: tagger = new Tagger("--node-format=%f[7]\\t --un
我正在尝试使用一个名为 MeCab 的程序,它对日语文本进行语法分析。我遇到的问题是它返回一个字节字符串,如果我尝试打印它,它会为几乎所有字符打印问号。但是,如果我尝试使用 .decode,它会抛出一
我正在使用位于 https://github.com/FLCLjp/iPhone-libmecab 的 MeCab iPhone 库.我在标记所有可能的单词时遇到了一些麻烦。具体来说,我不能将“吉本兴
我编写了一个 GUI,它允许日文输入,当您转到文件时 > 解析写入文本文件。然后该文本文件通过 MeCab 运行,其中在单词之间放置空格。之后应该再次写入文本文件,以便在另一个 GUI 窗口中显示。
使用 Natto gem (MeCab) 是否可以将混合的片假名/平假名/汉字/字母字符串转换为片假名/平假名/字母? (即转换汉字)。 例如我需要转换这个文本: 日本語だぜ、これが。 これはカタカナ
我正尝试在我一直在开发的新应用程序中使用 Mecab,但我无法让该库正常工作。最初,我尝试了以下应该与 iOS 6 兼容的存储库: https://github.com/gumob/mecab 我尝试
我正在尝试将 mecab 库添加到 aws lambda 层,但没有成功。 我想要的是将日语和韩语标记化。 token 化就足够了。 这是我所做的。 (我引用了这个网站:https://towards
今天我一直在尝试安装 this guy,但失败了。 (Python 3.5+ 的 MeCab 库)为了构建一个简单的个性化日语可读性分析工具(作为语言和数据 Nerd 的学习者)。 当然,我首先尝试的
我无法在elasticsearch中使用mecab tokenizer安装elasticsearch 5.2和mecab-ko、mecab-ko-dict、analysis-mecab-ko(elas
我正在尝试使用日语词法分析器 MeCab在 C# 程序(Visual Studio 2010 Express、Windows 7)中,编码出了点问题。如果我的输入(粘贴到文本框中)是这样的: 一方、広
我正在尝试通过 pip install mecab-python3 安装 mecab-python3,但出现以下错误。 Collecting mecab-python3 Using cached ht
我安装了“https://code.google.com/p/mecab/downloads/list”。 还有 >>> import MeCab Traceback (most recent cal
我正在尝试构建 MeCab 0.996带有 UniDic CWJ 2.3.0 的用户字典在 Ubuntu 20.10 上使用以下终端命令: $ /usr/local/libexec/mecab/mec
我是一名优秀的程序员,十分优秀!