gpt4 book ai didi

python - Word2Vec min_count 是如何应用的

转载 作者:行者123 更新时间:2023-11-28 22:18:11 26 4
gpt4 key购买 nike

假设我正在使用 min_count=5 训练一个 (Gensim) Word2Vec 模型。该文档向我们了解了 min_count 的作用:

Ignores all words with total frequency lower than this.

min_count 对上下文有什么影响?假设我有一个句子,其中包含频繁词 (min_count > 5) 和不常用词 (min_count < 5),并用 f 和 i 进行注释:

This (f) is (f) a (f) test (i) sentence (i) which (f) is (f) shown (i) here (i)

我只是编造了哪些词经常被使用,哪些词不是为了演示目的。

如果我删除所有不常用的词,我们会得到一个完全不同的上下文,训练 word2vec 的上下文。在此示例中,您的句子将是“This is a which is”,这将是 Word2Vec 的训练句子。此外,如果您有很多不常用词,那么原本相距很远的词现在会放在同一上下文中。

这是对 Word2Vec 的正确解释吗?我们是否只是假设您的数据集中不应该有太多不常用的词(或设置较低的 min_count 阈值)?

最佳答案

低于 min_count 频率的词在训练发生之前被丢弃。因此,相关上下文 window 是幸存单词之间的单词距离。

这种事实上的上下文收缩通常是一件好事:不常见的单词没有足够多的例子来为它们自己获得好的向量。此外,虽然每个不常见的单词单独出现时都是罕见的,但总的来说却有很多,所以这些注定要差的向量稀有词会干扰大多数其他单词的训练,作为一种噪音使这些词向量成为更糟。

(类似地,当使用 sample 参数对频繁词进行下采样时,频繁词会被随机丢弃——这也从本质上“缩小”了幸存词之间的距离,并且通常会提高整体矢量质量。)

关于python - Word2Vec min_count 是如何应用的,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50723303/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com