gpt4 book ai didi

lucene - 在 ElasticSearch 中,移除停用词对评分的影响仍然很小

转载 作者:行者123 更新时间:2023-12-02 22:20:57 24 4
gpt4 key购买 nike

基本匹配查询:Billy Sue

测试匹配查询 #1:Billy Sue and

测试匹配查询 #2:Billy 和 Sue

我们最终得到 Base 和 #1 之间相同的分数,但 Base 和 #2 的分数相似但不同。

使用分析 API,停止词 and 在两个测试查询中都被删除,但 start_offset 和 end_offset 标记属性对于 Sue 在基本查询和测试查询之间不同#2.

本质上,剩余标记之间的停用词删除前距离会被记录下来,并且对评分的影响很小但有限。

问题

有没有办法延迟标记的 start_offsetend_offset 属性的计算,直到删除停用词之后,或者以其他方式防止删除的停用词影响以任何方式得分?

最佳答案

也许禁用 position increments在停用词过滤器上看看是否有帮助?特别是如果你的映射在停用词过滤器之后有某种过滤器,你会从位置增量中得到奇怪的人工制品

例如像这样:

"analyzer": {
"analyzer_example":{
"tokenizer":"standard",
"filter":["standard", "lowercase", "filter_stop"]
}
},
"filter": {
"filter_stop":{
"type":"stop",
"enable_position_increments":"false"
}
}

关于lucene - 在 ElasticSearch 中,移除停用词对评分的影响仍然很小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14483746/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com