- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在使用位于 https://github.com/FLCLjp/iPhone-libmecab 的 MeCab iPhone 库.我在标记所有可能的单词时遇到了一些麻烦。具体来说,我不能将“吉本兴业”标记为“吉本”和“兴业”两部分。我可以使用任何选项来解决此问题吗? iPhone 库不公开任何内容,但它在 objective-c 包装器下使用 C++。我假设一定有某种设置可以更改以提供更细粒度的控制,但我不知道从哪里开始。
顺便说一下,如果有人想标记这个“mecab”可能是合适的。我还不能创建新标签。
更新:iOS 库正在调用 libmecab.cpp 中定义的 mecab_sparse_tonode2()。如果有人能指出有关该文件的一些英文文档,这可能就足够了。
最佳答案
其中没有任何特定于 iOS 的东西。您与 mecab(可能是 ipadic)一起使用的字典包含公司名称吉本兴业的条目。尽管名称的两个部分也被列为单独的名词,但 mecab 强烈倾向于将复合名称标记为一个词。
Mecab 缺少允许用户选择是否应将化合物拆分为多个部分的功能。请注意,这样的功能通常很难实现,因为并不是每个人都同意哪些化合物可以拆分,哪些不能。例如。容疑者是由容疑和者合成的吗?从纯粹的形态学角度来看也许是,但对于大多数实际应用来说可能不是。
如果您有一个要分割的化合物列表,一个快速的解决方法是为它们所包含的部分创建一个用户词典,并让 mecab 在主词典之外使用它。
有关如何执行此操作的日语文档 here .对于您的特定示例,它将涉及以下步骤。
用两个词条做一个用户字典,一个是吉本,一个是兴业:
吉本,,,100,名詞,固有名詞,人名,名,*,*,よしもと,ヨシモト,ヨシモト
興業,,,100,名詞,一般,*,*,*,*,こうぎょう,コウギョウ,コウギョウ
我怀疑这两个条目已经存在于默认字典中,但是通过将它们添加到用户字典并指定一个相对较低的特异性指示符(我对两者都使用了 100
- 较低的, split 的可能性越大),你可以让 mecab 倾向于更喜欢部分而不是整体。
编译用户字典:
$> $MECAB/libexec/mecab/mecab-dict-index -d /usr/lib64/mecab/dic/ipadic -u mydic.dic -f utf-8 -t utf-8 ./mydic
您可能需要调整命令。以上假设:
Mecab 是从 $MECAB
中的源代码安装的。如果您使用由包管理器安装的 mecab,您可能很难找到 mecab-dict-index
工具。最好从源安装。
默认字典在 /usr/lib64/mecab/dict/ipadic
中。这不是 mecab 包的一部分;它作为一个单独的包提供(例如 this ),您可能也很难找到它。
mydic
是在步骤 1 中创建的用户词典的名称。mydic.dic
是您将作为输出获得的已编译词典的名称 (不需要存在)。
系统字典(-t
选项)和用户字典(-f
选项)都使用 UTF-8 编码。这可能是错误的,在这种情况下,您稍后会在使用 mecab 时收到错误消息。
修改 mecab 配置。在系统范围的安装中,这是一个名为 /usr/lib64/mecab/dic/ipadic/dicrc
或类似名称的文件。在您的情况下,它可能位于其他地方。将以下行添加到配置文件的末尾:
userdic = home/myhome/mydic.dic
确保上面编译的字典的绝对路径是正确的。
如果您随后针对您的输入运行 mecab,它会将化合物拆分成多个部分(我在 Linux 系统上使用 mecab 0.994 对其进行了测试)。
更彻底的修复方法是获取默认词典的来源并手动删除所有要拆分的复合名词,然后重新编译词典。作为一般性评论,在较长一段时间内将 CJK 分词器用于生产模式下的严肃应用程序通常需要定期进行一定量的字典维护(添加/删除条目)。
关于ios - iOS 上 MeCab 日语分词器的选项?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14690036/
给定一个 Option[Future[Option[Int]]] : scala> val x: Option[Future[Option[Int]]] = Some ( Future ( Some
如果我理解正确,EitherT[Option,A,B] 应该与 Option[Either[A,B]] 相同,但编译器不同意.以下代码编译失败: def f[A,B] = implicitly[Eit
我刚开始在使用 parcel.js 构建静态 Assets 时遇到此错误。它在本地工作,但我在 Heroku 上的构建出错,我不确定它是否相关。 最佳答案 得到同样的问题。通过将 core-js 安装
当我生成 Telerik Report 时,只有 Export PDF 可用。即使我将 docx 和 xlsx 的配置设置为 true。这是我在网络配置中的配置。
我的 iTunesConnect 应用程序显示 Apple Pay 选项。我正在使用布伦特里。 即使我们没有在应用程序中使用 Apple Pay 功能。 有人可以帮我解决如何在我的 itunesCon
我正在 Raspbian 中从命令行运行以下查询: mysql -u $NAME -p $PASS Tweets -e "SELECT count(*) FROM raw_tweets;" 它输出以下
我正在尝试使用 ffmpeg(在 linux 下)为视频添加一个小标题。所以,我使用: ffmpeg -i hk.avi -r 30000/1001 -metadata title="SOF" hk_
我正在尝试使用 ffmpeg 使用 ffserver 流式传输视频。您将在 ffserver1.conf 文件下方找到 ffmpeg 命令的日志输出。 其中一个错误引用了预设,每次我尝试使用预设时,我
我正在尝试对 Option 使用 fold 或 map 操作而不是 match。 我有一个选项 val ao: Option[String] = xxxx 和一个函数 f: (String => Fu
Dockerfile documentation表示有可能通过 --platform FROM 中的选项像这样的指令: FROM [--platform=] [AS ] 在我的 dockerfile
我不确定“属性(property)”或“选项”是否是正确的术语,但这是我需要弄清楚的。 鉴于以下情况: ' $.fileup({ url: '/file/upload',
我正在尝试使用 jQuery 检查是否选择了值 = 1 的选择选项,然后将类添加到某些元素。但有些东西不起作用。可以请人看一下代码吗? 我的代码: Reservation
我对 VIM 中的这些感到困惑。有些事情需要设置,而另一些则让。 而且,我如何检查某个选项。我知道这是一个选项,因为我使用 set 来更改它。 例如,如何检查当前文件类型选项是否为 java? 最佳答
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 8 年前。 Improve this ques
我在看《Professional F# 2.0》一书作者展示如下代码 let a string : option = None if a.IsNone then System.Console.
我习惯使用方法顶部的 java 样板检查输入参数: public static Boolean filesExist(String file1, String file2, String file3
假设我有一串 "Insert Post -title Some PostTitle -category 2 -date-posted 2013-02:02 10:10:10" 我一直在尝试做的是将这个
从 1.3.70 EAP 开始,在 org.jetbrains.kotlin.gradle.dsl.KotlinJvmOptions 这是 var useIR: kotlin.Boolean 哪个激活
我无法获取订购捆绑商品的所有子产品及其选项。这可能吗? 最佳答案 以下是您如何找出哪些产品应与所有其他项目一起附加到列表中的捆绑产品中的方法: foreach ($order->getAllItems
这个问题不太可能对任何 future 的访客有帮助;它只与一个较小的地理区域、一个特定的时间点或一个非常狭窄的情况相关,通常不适用于全世界的互联网受众。如需帮助使此问题更广泛适用,visit the
我是一名优秀的程序员,十分优秀!