gpt4 book ai didi

algorithm - 优化相似句子的搜索,Word2Vec

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:16:24 24 4
gpt4 key购买 nike

我试图在一组句子中找到所有相似的句子,我想知道如何优化它。

我使用的是 Word2Vec 模型,所以为了找到相似的句子,我对第 1 句和第 2 句中的所有向量求和,然后对两者进行余弦运算,如果结果高于 0.9,我将其添加到相似句子列表。

现在的问题是我正在将所有句子与其他句子进行比较,这意味着复杂度为 O(n^2),如果我有大量句子,这就不太好了。

所以我的问题是:是否有任何方法可以预处理句子集以减少比较次数(并获得 O(nlogn) 复杂度)?

我无法理解这个问题,因为我对这种 Word2Vec 表示还很陌生,而且我真的看不出有什么方法可以帮助对句子进行排序。

最佳答案

不幸的是,由于高维空间中的问题(与“curse of dimensionality”相关),没有比进行批量、全成对比较更好的简单/容易的方法。

有一些预先建立近似索引的技巧;参见例如 ANNOY图书馆或 Facebook 的 FAISS (目前仅限非商业许可)。有了这些,额外的前期时间和索引空间可以加速以后的最近邻查询——但以完全准确为代价。

否则,您将不得不使用智能批处理和缓存来帮助您避免不必要的重新计算,或者在大数据集上投入大量机器以减少可感知的等待时间。

(另外:您可能不想使用绝对阈值,例如 0.9,而不是查看任何向量的前 N ​​个值。绝对值的范围和与人类判断相关的解释模型元参数或空间区域之间的相似性可能不像相对排名那样稳定。)

关于algorithm - 优化相似句子的搜索,Word2Vec,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45199172/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com