gpt4 book ai didi

word2vec - word2vec评估结果解读

转载 作者:行者123 更新时间:2023-12-04 17:34:28 26 4
gpt4 key购买 nike

我使用自己的数据集创建了词嵌入 (Word2vec)。我使用 Gensim 模块来创建词嵌入。我想评估我的词嵌入。

我使用 Wordsim353 数据集来评估词嵌入。以下代码显示评估结果。

代码:

from gensim.test.utils import datapath

similarities = model.wv.evaluate_word_pairs(datapath('wordsim353.tsv'))

print(similarities)

结果:

((0.09410256722489568, 0.3086953732794174), SpearmanrResult(correlation=0.06101508426787973, pvalue=0.5097769955392246), 66.28895184135978)

如何解释结果?

请帮助我解释结果。

最佳答案

我们评估词嵌入质量的方法是查看嵌入计算的相似度与人类判断分配的实际相似度的接近程度。

您的 Pearson 和 Spearmanr 的 pValue 过高,大约为 0.3 (70%) 和 0.5 (50%)。我建议您应该使用预训练词嵌入或收集更多数据集。

我努力用 glove-twitter-25 进行评估,并获得了非常好的 pvalue。

import gensim.downloader as api
from gensim.test.utils import datapath

m = api.load("glove-twitter-25")
m.evaluate_word_pairs(datapath("wordsim353.tsv"))

输出:

((0.36409317297819943, pvalue=2.969053896450154e-12), SpearmanrResult(correlation=0.36452011505868487, pvalue=2.788781738485533e-12), 2.26628895184136)

evaluate_word_pairs - Gensim module

关于word2vec - word2vec评估结果解读,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57198286/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com