gpt4 book ai didi

lucene - 模糊搜索 - minimumSimilarity 有问题

转载 作者:行者123 更新时间:2023-12-04 10:46:55 26 4
gpt4 key购买 nike

我使用 Lucene.Net ver 3.0.3 并使用 StandardAnalyzer 创建索引。

我的索引中有一个文本,似乎模糊搜索不起作用。

  • 文档中的文本:CUBAEXPORT
  • 正在搜索的文本:CUBAEXPOR
  • 最小相似度:90%
  • 长度(CUBAEXPORT)= 10
  • 长度(CUBAEXPOR)= 9
  • 编辑距离 = 1
  • 相似度 = ((10 - 1)/10 ) * 100 = 90%

  • 据我了解, CUBAEXPOR必须在 90% 处找到,但在 88% 处找到。

    enter image description here

    最佳答案

    它基于搜索词的长度和索引词的长度中的较小者。因此,由于您的搜索词的长度为 9,因此 0.88 相似度是允许一个编辑距离的最小值。

    最大编辑距离的计算是这样的:

    int maxEdits = (int)((1-minSim) * (Math.min(textLength, targetLength)));

    另外,请记住,浮点精度在这里可能是一个问题!因此,如果您设置 minSim = 0.8,并尝试将长度设为 5,您将有 0 个 maxEdits,因为 (1-(float).8)*5 = .99999994,并将其转换为 int 会得到 0。

    总而言之,我不会过分担心在模糊查询中精确绘制线条的位置。
    (我很高兴 lucene 摒弃了这种基于百分比的模糊相似性愚蠢行为)

    关于lucene - 模糊搜索 - minimumSimilarity 有问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59663159/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com