gpt4 book ai didi

elasticsearch - 带有 Elasticsearch 的 Word2vec 文本相似性

转载 作者:行者123 更新时间:2023-11-29 02:44:16 24 4
gpt4 key购买 nike

我有大量文本,其中每个文本都在快速增长。我需要实现相似性搜索。

想法是将每个单词嵌入为 word2vec,并通过将每个单词的嵌入向量相加,将每个文本表示为归一化向量。随后对文本的添加只会通过向其添加新的词向量来改进结果文本的向量。

是否可以通过在文档中仅存储每个文本的归一化向量的坐标来使用 elasticsearch 来获得余弦相似度?如果是这样,这种搜索的正确索引结构是什么?

最佳答案

elasticsearch plugin为使用 delimited-payload-tokenfilter 存储的向量实现得分函数(点积)

此搜索的复杂性是文档数量的线性函数,并且在术语查询上比 tf-idf 更差,因为 ES first searches on an inverted index然后它uses tf-idf for document scores ,所以 tf-idf 不会在索引的所有文档上执行。使用向量,您要搜索的表示是具有较低余弦距离的文档的向量空间,没有倒排索引的优势。

关于elasticsearch - 带有 Elasticsearch 的 Word2vec 文本相似性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42408805/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com