gpt4 book ai didi

Python:Gensim Word2vec 模型类中的 "size"参数是什么

转载 作者:太空狗 更新时间:2023-10-30 00:31:09 26 4
gpt4 key购买 nike

我一直在努力理解 gensim.models.Word2Vecsize 参数的使用

根据 Gensim 文档,size 是向量的维数。现在,据我所知,word2vec 为每个单词创建了一个向量,表示与句子中其他单词的接近概率。那么,假设如果我的 vocab 大小是 30,那么它如何创建一个维度大于 30 的向量?任何人都可以向我介绍一下 Word2Vec 大小的最佳值吗?

谢谢。

最佳答案

size 如您所见,是向量的维数。

Word2Vec 需要大量不同的文本示例来为每个单词创建“密集”嵌入向量。 (这是训练期间许多对比示例之间的竞争,它允许词向量移动到彼此之间具有有趣距离和空间关系的位置。)

如果您只有 30 个单词的词汇表,word2vec 不太可能是合适的技术。如果尝试应用它,您需要使用比词汇量小得多的矢量大小——理想情况下。例如,包含数万个单词中每个单词的许多示例的文本可能证明 100 维单词向量是合理的。

使用比词汇量更高的维度将或多或少地保证“过度拟合”。训练可能倾向于为每个单词使用一个特殊的向量——本质上就像一个“one-hot”编码——这将比任何其他编码表现得更好,因为没有通过用更少的单词表示更多的单词而强制出现的交叉单词干扰尺寸。

这意味着模型在 Word2Vec 内部近义词预测任务上的表现尽可能好——但在其他下游任务上却很糟糕,因为没有捕获到可概括的相对关系知识。 (交叉词干扰是算法需要,在许多训练周期中,逐渐适应一种排列,其中相似词必须在学习权重上相似,而对比词不同。)

关于Python:Gensim Word2vec 模型类中的 "size"参数是什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45444964/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com