- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
是否有某处描述 Mecab 算法的文档?
或者谁能给出一个简单的一段或一页的描述?
我发现很难理解现有代码以及数据库包含的内容。
我的免费网站和手机教学语言应用程序 (www.jtlanguage.com) 需要此功能。我还想将它推广到其他语言,并利用我已经实现的共轭检测机制,而且我还需要它而没有许可证障碍。因此,我想创建自己的实现 (C#)。
我已经有一个从 EDICT 派生的字典数据库。还需要什么?使用频率数据库?
谢谢。
最佳答案
有些想法太长,不适合评论。
§ 什么许可证产权负担? MeCab 拥有包括 BSD 在内的双重许可,因此您可以尽情享受它。
§ 还有一个名为 Kuromoji 的 Mecab 的 Java 重写。这是 Apache 许可的,也非常商业友好。
§ MeCab 实现了一种称为 conditional random fields 的机器学习技术用于词法解析(将自由文本分离成词素)和词性标注(标记那些词素)日语文本。它能够使用各种词典作为训练数据,如您所见——IPADIC、UniDic 等。这些词典是语素和词性的汇编,是人类多年语言研究的成果。链接的论文由 MeCab 的作者撰写。
§ 其他人已将其他强大的机器学习算法应用于日语解析问题。
§ 综上所述,我认为您可以看出像 EDICT 和 JMDICT 这样的简单词典不足以进行这些词法解析器所做的高级分析。对于其他更易于解析的语言(即带有空格的语言),这些算法可能有点矫枉过正。
如果您需要这些库的强大功能,您最好编写一个运行这些系统之一的微服务(我为 Kuromoji 编写了一个名为 clj-kuromoji-jmdictfurigana 的 REST 前端),而不是尝试在 C# 中重新实现它们。
但请注意,似乎存在与 MeCab 的 C# 绑定(bind):see this answer .
在几个小项目中,我只是将 shell 输出到 MeCab,然后读取并解析它的输出。我的TypeScript example using UniDic对于 Node.js。
§ 但也许您不需要完整的词法分析和词性标注?你用过Rikaichamp吗,使用 JMDICT 和其他低权重公开可用资源来修饰网站文本的 Firefox 附加组件? (也有 Chrome 版本。)它使用更简单的 deinflector。坦率地说,与 MeCab 等人相比,这很糟糕。但通常可以完成工作。
§ 你对字典的结构有疑问(你称它们为“数据库”)。 Kimtaro(Jisho.org 的作者)关于如何向 IPADIC 添加自定义词汇表的注释至少可以阐明 IPADIC 的工作原理:https://gist.github.com/Kimtaro/ab137870ad4a385b2d79 .其他更现代的词典(我倾向于使用 UniDic)使用不同的格式,这就是 MeCab 的输出因您使用的词典而异的原因。
关于mecab - 是否有 mecab(日语单词解析器)算法的描述?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56046070/
我正在尝试在日本网站上的 flash 动态文本字段上实现抗锯齿。这些文本字段的内容不是固定数据。 我没有嵌入字体的选项,因为嵌入所有字符会导致非常重的 swf 文件(3000kb+ 仅用于字体)。这是
我正在创建一个游戏。我有一些带有文本的用户界面。最近我们想添加日语版本,但我遇到字体问题。我使用 stb_freetype 来光栅化字体,并且我支持 Unicode,所以这应该不是问题。但大多数字体似
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 6 年前。 Improve this qu
我知道我的问题已经在这里有了解决方案。但我只想具体说明我的情况。我有一个 json 对象,其中包含非英语字符。 例如。 {“my_chinise_name”:“吉米”}。 该对象将通过 javascr
我刚刚安装了 Tesseract OCR 并在运行命令 $ tesseract --list-langs 后输出仅显示 2 种语言,eng和osd 。我的问题是,如何加载另一种语言,在我的例子中是日语
在哪里可以获得与日语汉字、平假名和片假名字符对应的 ASCII 代码列表。我正在做一个java函数和Javascript来确定它是否是日语字符。它的 ASCII 码范围是多少? 最佳答案 ASCII代
在我的 Rails 应用程序中,我有一个像这样的文本字段 @disabled_field %> 我正在使用 jQuery 来验证此文本字段仅接受 half width katakana字符(Unic
我有在表单中添加网站选项的功能。 用户可以在这里写域/url,这个域/url 可以是英语也可以是日语,如下所示。 www.google.com www.南极星.com I am using follo
我遇到了日语问题。我有一个允许用户搜索数据的表格。当用户输入要搜索的字符串并按下“Enter”键时,搜索功能就会执行。我的代码是: $('#formSearch input').keyup(funct
我是 Java 脚本的新手。我写了一个正则表达式,它允许用户名或电子邮件地址作为某些条件的输入,例如应接受 6-50 个字符不允许空格或空白不应允许 2 个 @ 符号并且可以接受超过 1 个 .(点)
您好,我有一个包含日语文本的文件,保存为 unicode 文件。 我需要从文件中读取信息并将信息显示到标准输出。 我正在使用 Visual Studio 2008 int main() {
我正在使用在 http://mobile.tutsplus.com/tutorials/android/android-sdk-using-the-text-to-speech-engine/ 中找到
(我正在开发一个网站来抓取 ASP.NET 中的其他网站内容。我能够正确获取内容,但如何根据该内容识别使用的是哪种语言。例如英语、印地语、中文, 日语等 我使用了以下代码。 HttpWebReques
在 TextBox 中,我无法捕获具有特殊 IME 的语言(例如日语和韩语)的击键,因为 IME 不断地决定不同的字符或音节。实际上,大多数情况下 KeyUp/KeyDown 都不会触发(如果 IME
我有一个包含日语单词的数据库。我很困惑,因为这个查询: SELECT japanese FROM my_table where japanese = 'する' 返回两个结果: ずる する 我试图查看
我想将 CSV 文件解析为 JSON 文件。我已经解析了它,但它没有得到日语字符。 我正在使用 Papa Parser 将 CSV 解析为 JSON。 这是我的代码:- Papa.parse("htt
我有一个 C# winform 应用程序,它安装在日文 windows 7 上。一些标签以非常宽的字体显示,导致它们无法匹配 from 的大小。 经过一些研究,我被告知这可能是半角/全角问题。有没有办
MySql 全文搜索是否适用于非拉丁语言? (希伯来语、阿拉伯语、日语……) 添加:做了一些测试...希伯来语有一些问题。示例:名称 מוסəנזון 的发音与 מושəנזון 相同,但搜索不会找到
我使用下一个代码从句柄为 hFile 的文件中读取所有元素行得通,而且我用 GetFileSize(hFile, NULL) 得到了它的大小. _TCHAR* text = (_TCHAR*)mall
验证按预期进行,但消息仅以英语显示良好。我使用自己的日语消息。 问题是我收到了日语的乱码验证消息。我将validation-api-1.0.0.GA.jar与hibernate-validator-4
我是一名优秀的程序员,十分优秀!