gpt4 book ai didi

mecab - 是否有 mecab(日语单词解析器)算法的描述?

转载 作者:行者123 更新时间:2023-12-02 00:53:33 26 4
gpt4 key购买 nike

是否有某处描述 Mecab 算法的文档?

或者谁能给出一个简单的一段或一页的描述?

我发现很难理解现有代码以及数据库包含的内容。

我的免费网站和手机教学语言应用程序 (www.jtlanguage.com) 需要此功能。我还想将它推广到其他语言,并利用我已经实现的共轭检测机制,而且我还需要它而没有许可证障碍。因此,我想创建自己的实现 (C#)。

我已经有一个从 EDICT 派生的字典数据库。还需要什么?使用频率数据库?

谢谢。

最佳答案

有些想法太长,不适合评论。

§ 什么许可证产权负担? MeCab 拥有包括 BSD 在内的双重许可,因此您可以尽情享受它。

§ 还有一个名为 Kuromoji 的 Mecab 的 Java 重写。这是 Apache 许可的,也非常商业友好。

§ MeCab 实现了一种称为 conditional random fields 的机器学习技术用于词法解析(将自由文本分离成词素)和词性标注(标记那些词素)日语文本。它能够使用各种词典作为训练数据,如您所见——IPADIC、UniDic 等。这些词典是语素和词性的汇编,是人类多年语言研究的成果。链接的论文由 MeCab 的作者撰写。

§ 其他人已将其他强大的机器学习算法应用于日语解析问题。

  • Kytea可以同时使用支持向量机和逻辑回归来解决同一个问题。 C++、Apache 许可,论文可供阅读。
  • Rakuten MA是用 JavaScript 编写的,也是自由许可的(又是 Apache),并附带一本普通词典和一本用于受限应用程序的轻量级词典——尽管它不会为您提供汉字读物。您可以在那里找到描述该算法的学术论文。

§ 综上所述,我认为您可以看出像 EDICT 和 JMDICT 这样的简单词典不足以进行这些词法解析器所做的高级分析。对于其他更易于解析的语言(即带有空格的语言),这些算法可能有点矫枉过正。

如果您需要这些库的强大功能,您最好编写一个运行这些系统之一的微服务(我为 Kuromoji 编写了一个名为 clj-kuromoji-jmdictfurigana 的 REST 前端),而不是尝试在 C# 中重新实现它们。

但请注意,似乎存在与 MeCab 的 C# 绑定(bind):see this answer .

在几个小项目中,我只是将 shell 输出到 MeCab,然后读取并解析它的输出。我的TypeScript example using UniDic对于 Node.js。

§ 但也许您不需要完整的词法分析和词性标注?你用过Rikaichamp吗,使用 JMDICT 和其他低权重公开可用资源来修饰网站文本的 Firefox 附加组件? (也有 Chrome 版本。)它使用更简单的 deinflector。坦率地说,与 MeCab 等人相比,这很糟糕。但通常可以完成工作。

§ 你对字典的结构有疑问(你称它们为“数据库”)。 Kimtaro(Jisho.org 的作者)关于如何向 IPADIC 添加自定义词汇表的注释至少可以阐明 IPADIC 的工作原理:https://gist.github.com/Kimtaro/ab137870ad4a385b2d79 .其他更现代的词典(我倾向于使用 UniDic)使用不同的格式,这就是 MeCab 的输出因您使用的词典而异的原因。

关于mecab - 是否有 mecab(日语单词解析器)算法的描述?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56046070/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com