gpt4 book ai didi

c# - 信息检索中的波特词干算法

转载 作者:塔克拉玛干 更新时间:2023-11-03 06:23:29 24 4
gpt4 key购买 nike

<分区>

我需要为我的应用程序创建简单的搜索引擎。让我们将其简化为以下内容:我们有一些文本(很多),我需要搜索并显示相关结果。

我基于这个很棒的 article 扩展了一些东西,它对我来说效果很好。

但我在将单词词干化为术语时遇到了问题。例如单词“annotation”、“annotations”等将被词干化为“annot”,但想象一下你尝试搜索一些东西,你会看到意想不到的结果:

  • “anno”——什么都没有
  • “annota”——什么都没有等

只有单词“annot”会给出相关结果。那么,我应该如何改进我的搜索以获得预期的结果呢?因为“annot”包含“anno”,而“annota”比“annot”略多。一直使用包含显然不是解决方案

如果在第一种情况下我可以使用一些 Ternary search tree ,在第二种情况下我不知道该怎么做。

任何想法都会很有帮助。

更新

oleksii 已将我指向 n-grams here ,这可能对我有用,但我不知道如何正确索引 n-grams。

所以问题:

  • 哪种数据结构最能满足我的需求
  • 如何正确索引我的 n-gram

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com