gpt4 book ai didi

java - 小词词干提取/词形还原

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:25:21 24 4
gpt4 key购买 nike

目前我使用“lucene”和“elasticsearch”,遇到下一个问题。我需要获得 diminutive 的词干形式或引理单词。例如:

  • 小狗 -> 狗
  • 小猫 -> 猫

等等

但我得到下一个结果:

  • doggy -> doggi
  • kitty -> kitti

有没有什么方法(不重要的现成库、任何算法、方法等)来获取 diminutive 的词根/原始词形式单词形式?

目标语言:俄语。例如:

  • собачка -> собака
  • кошечка -> кошка

提前致谢!

最佳答案

首先,作为旁注:您尝试做的事情通常不称为词干提取或词形还原。

您的第一个问题是将观察到的 token (例如 собачка)映射到其规范化形式(例如 собака)——天真地,这可以通过创建 SynonymFilter 来完成它使用 SynonymMap 将小数形式映射到它们的规范形式。但是,您可能会遇到任何自然语言的问题,因为并非所有推导都是明确的:例如,在德语中,Mädel('girl'/'lass')可能是 < em>Magd(意为“年轻女子”/“女仆”的古老词)或 Made(“蛆”)。

消除这两种形式歧义的一种方法是计算每个规范形式出现在给定上下文中的概率(例如,前面的 n 标记的历史记录),然后将小形式替换为最可能的规范形式(使用定制的 TokenFilter 来做到这一点)——参见例如the Wikipedia entry for word-sense disambiguation 用于不同的方法。

关于java - 小词词干提取/词形还原,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25741209/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com