gpt4 book ai didi

java - 词库/词干词典

转载 作者:塔克拉玛干 更新时间:2023-11-01 22:34:59 27 4
gpt4 key购买 nike

看来我的 Google 功能让我失望了。

有谁知道免费提供的仅包含单词基础的单词基础词典?所以,对于像草莓这样的东西,它会有草莓。但不包含缩写或拼写错误或替代拼写(如 UK 与 US)?任何可以在 Java 中快速使用的东西都会很好,但只有映射的文本文件或任何可以读入的东西都会有帮助。

最佳答案

这称为词形还原,您所说的“词基”称为引理。 morpha及其 reimplementation在斯坦福 POS 标记器中执行此操作。然而,两者都需要词性标记输入来解决自然语言中固有的歧义。

(词性标注意味着确定单词类别,例如名词、动词。我一直假设您想要一个处理英语的工具。)

编辑:由于您将使用它进行搜索,这里有一些提示:

  • 简单的英语词干提取在搜索引擎界享有盛誉。有时有效,但通常无效。
  • 自动拼写更正可能效果更好。这就是Google做。但是,如果您想正确地进行操作,就计算时间而言,它是昂贵的。
  • 词形还原可能会带来好处,但可能只有当您为单词和词条编制索引和搜索时。 (同样的建议也适用于词干提取。)
  • 这是一个 plugin for Lucene进行词形还原。

(前面的评论是基于我自己的研究;我的硕士论文是关于在搜索引擎中针对非常嘈杂的数据进行词形还原。)

关于java - 词库/词干词典,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4025153/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com