gpt4 book ai didi

word2vec - 应用 word2vec 查找所有高于相似度阈值的单词

转载 作者:行者123 更新时间:2023-12-02 01:02:47 24 4
gpt4 key购买 nike

命令 model.most_similar(positive=['france'], topn=100) 给出与“france”最相似的前 100 个单词。但是,我想知道是否有一种方法可以将超过相似度阈值的最相似的词输出到给定的词。有没有类似下面的方法:
model.most_similar(positive=['france'], threshold=0.9)

最佳答案

不,您必须请求大量(或全部,使用 topn=0 )然后自己应用截止值。

您要求的内容理论上可以作为选项添加。

但是,余弦相似度的绝对幅度不一定具有稳定的含义,例如不同模型运行中的“90% 相似度”。它们的分布可以根据模型训练参数而变化,例如向量 size ,并且它们最常仅在与来自同一模型的其他成对值进行排名比较时被解释。

例如,在具有不同训练参数的模型中,'cold' 的前 100 个最相似词的组成可能非常相似,但 #1 到 #100 词的绝对相似度值范围可能大不相同。因此,如果您选择了一个绝对阈值,您可能希望根据观察模型或与其他模型训练元参数一起改变截止值。

关于word2vec - 应用 word2vec 查找所有高于相似度阈值的单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49391597/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com