gpt4 book ai didi

python - word2vec_basic 输出 : trying to test word similarity versus human similarity scores

转载 作者:太空宇宙 更新时间:2023-11-04 05:11:30 25 4
gpt4 key购买 nike

作为熟悉 Tensorflow 的一种方式,我正在尝试验证 word2vec_basic.py(请参阅 tutorial)生成的词嵌入在对照人类相似性分数进行检查时是否有意义。然而,结果出人意料地令人失望。这就是我所做的。

word2vec_basic.py 中,我在最后添加了另一个步骤以将嵌入和反向字典保存到磁盘(因此我不必每次都重新生成它们):

with open("embeddings", 'wb') as f:
np.save(f, final_embeddings)
with open("reverse_dictionary", 'wb') as f:
pickle.dump(reverse_dictionary, f, pickle.HIGHEST_PROTOCOL)

在我自己的 word2vec_test.py 中,我加载它们并创建一个用于查找的直接字典:

with open("embeddings", 'rb') as f:
embeddings = np.load(f)
with open("reverse_dictionary", 'rb') as f:
reverse_dictionary = pickle.load(f)
dictionary = dict(zip(reverse_dictionary.values(), reverse_dictionary.keys()))

然后我将相似度定义为嵌入向量之间的欧氏距离:

def distance(w1, w2):
try:
return np.linalg.norm(embeddings[dictionary[w1]] - embeddings[dictionary[w2]])
except:
return None # no such word in our dictionary

到目前为止,结果是有意义的,例如 distance('before', 'after') 小于 distance('before', 'into')

然后,我从 http://alfonseca.org/pubs/ws353simrel.tar.gz 下载了人类分数(我从“Model Zoo”的 Swivel 项目中借用了下面的链接和代码)。我比较人类的相似性和嵌入距离得分如下:

with open("wordsim353_sim_rel/wordsim_relatedness_goldstandard.txt", 'r') as lines:
for line in lines:
w1, w2, act = line.strip().split('\t')
pred = distance(w1, w2)
if pred is None:
continue

acts.append(float(act))
preds.append(-pred)

我使用 -pred 因为人类得分随着相似性的增加而增加,所以需要反转距离顺序来匹配(较小的距离意味着较大的相似性)。

然后我计算相关系数:

rho, _ = scipy.stats.spearmanr(acts, preds)
print(str(rho))

但结果非常小,比如 0.006。我用 4 个词的上下文和 256 的向量长度重新训练了 word2vec_basic,但它根本没有改善。然后我使用余弦相似度代替欧氏距离:

def distance(w1, w2):
return scipy.spatial.distance.cosine(embeddings[dictionary[w1]], embeddings[dictionary[w2]])

仍然没有相关性。

那么,我误解或做错了什么?

最佳答案

回答我自己的问题:是的,结果令人沮丧,但那是因为模型太小并且训练的数据太少。就如此容易。 The implementation I experimented with使用 1700 万个单词的语料库并运行 100K 步,并且仅采用 2 个相邻的上下文单词,嵌入大小为 128。我得到了一个更大的维基百科样本,包含 12400 万个单词,将上下文增加到 24 个单词(每边 12 个),嵌入大小为 256,并训练了 1.8M 步,瞧!相关性(在我上面的问题中测量)增长到 0.24。

然后我按照 in this tutorial 中的描述实现了频繁词的子采样相关系数进一步跃升至 0.33。最后,我把我的笔记本电脑放在一夜之间,用 36 个上下文单词和 3.2M 步进行训练,它一直到 0.42!我认为我们可以称之为成功。

因此,对于像我这样玩它的人来说,它看起来像是一款需要大量数据、大量耐心和 NVidia 硬件(我目前没有)的游戏。但这仍然很有趣。

关于python - word2vec_basic 输出 : trying to test word similarity versus human similarity scores,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42881590/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com