gpt4 book ai didi

python - en_vectors_web_lg 和 Glove 向量之间的差异 (spaCy)

转载 作者:太空宇宙 更新时间:2023-11-03 11:17:42 28 4
gpt4 key购买 nike

https://spacy.io/models/en#en_vectors_web_lg声明该模型包含 1.1m 键,但是 https://nlp.stanford.edu/projects/glove/声明 Glove 向量包含 2.2M 词汇

我可以知道缺少哪些词汇吗?

非常感谢。

最佳答案

您可以通过查看 spaCy .vocab 属性/对象来自行检查 spaCy 和 GloVe 模型的词汇表,并将其与 GloVe 文件中的单词进行比较。首先将数据加载到两个列表中:

import spacy
nlp = spacy.load('en_vectors_web_lg')
spacy_words = [word for word in nlp.vocab.strings]
glove_filename = 'glove.840B.300d.txt'
glove_words = [line.split()[0].decode('utf-8') for line in open(glove_filename)]

然后检查集合差异以获得“缺失”单词:

>>> list(set(glove_words) - set(spacy_words))[:10]
[u'Inculcation', u'Dholes', u'6-night', u'AscensionMidkemia',
u'.90.99', u'USAMol', u'USAMon', u'Connerty', u'RealLife',
u'NaughtyAllie']

>>> list(set(spacy_words) - set(glove_words))[:10]
[u'ftdna', u'verplank', u'NICARIO', u'Plastic-Treated', u'ZAI-TECH',
u'Lower-Sulfur', u'desmonds', u'KUDNER', u'berlinghoff', u'50-ACRE']

缺少超过 2.2 mio - 1.1 mio ~ 1.1 mio 单词:

>>> len(set(glove_words) - set(spacy_words))
1528158

请注意,nlp.vocab.stringsnlp.vocab.vectors 中的内容有所不同。您可以使用

从矢量对象加载单词
vector_words = []
for key, vector in nlp.vocab.vectors.items():
try:
vector_words.append(nlp.vocab.strings[key])
except KeyError:
pass

(关于 try/except:我不清楚为什么 vocab.strings 中缺少某些键)

有了这个列表,你会得到:

>>> list(set(glove_words) - set(vector_words))[:10]
[u'Inculcation', u'Dholes', u'6-night', u'AscensionMidkemia', u'.90.99',
u'USAMol', u'USAMon', u'Connerty', u'RealLife', u'NaughtyAllie']

更新:这里已经提出词汇不一致的问题https://github.com/explosion/spaCy/issues/1985 .

关于python - en_vectors_web_lg 和 Glove 向量之间的差异 (spaCy),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48779574/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com