gpt4 book ai didi

python - 具有 phash 汉明距离的 Elasticsearch 聚合

转载 作者:太空宇宙 更新时间:2023-11-03 21:32:36 24 4
gpt4 key购买 nike

尝试将相似的文档与匹配的关键字字段值和相关图像的相组合在一起。目前我有以下内容,对于精确匹配阶段效果很好

          'duplicate_docs':
A('terms',
script={
"lang":
"painless",
"inline":
"def term = doc['make'] + '' +doc['model'] + doc['province'] + doc['mileage'];return term+''+doc['image_hash'];"
}),
}, {'dup_docs': A('top_hits', size=20)}):

然而,有些图像略有不同,phash 的重点是您可以使用汉明距离来计算差异程度

我意识到这可能会使计算成本大大增加,因为本质上需要将每个图像与其他每个图像进行比较,这似乎有点过多,但不确定我还能如何解决这个问题。谢谢

最佳答案

您可能想尝试一下:

Mu, C, 赵, J., Yang, G., Yang, B. 和 Yan, Z., 2019 年 10 月。全文搜索引擎上汉明空间中快速准确的最近邻搜索。在国际相似性搜索和应用 session (第 49-56 页)中。查姆·施普林格。

上述论文提出的 FENSHSES 方法可以有效地找到汉明空间中的所有 r 邻居,而无需扫描所有文档。

关于python - 具有 phash 汉明距离的 Elasticsearch 聚合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53447731/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com