gpt4 book ai didi

nlp - 使用 word2vec 时删除停用词

转载 作者:行者123 更新时间:2023-12-01 23:14:41 25 4
gpt4 key购买 nike

我已经尝试 word2vec 一段时间了,现在使用 gensim 的 word2vec 库。我的问题是我是否必须从输入文本中删除停用词?因为,根据我最初的实验结果,当我执行 model.most_similar('someword').. 时,我可以看到像“of”、“when”..(停用词)这样的单词弹出。

但是我没有看到任何地方提到 word2vec 需要删除停用词?即使您不删除停用词,word2vec 是否应该处理它们?

必须做哪些预处理工作(例如对于主题建模,几乎必须进行停用词删除)?

最佳答案

Gensim 的实现基于 word2vec 的原始 Tomas Mikolov 模型,然后根据频率自动对所有频繁单词进行下采样。

the paper 中所述:

We show that subsampling of frequent words during training results in a significant speedup (around 2x - 10x), and improves accuracy of the representations of less frequent words.

这意味着这些词有时不被考虑在要预测的词的窗口中。默认为 0.001 的样本参数用作删除这些单词的参数。如果您想删除一些特定的停用词,而这些停用词根据其频率不会被删除,您可以这样做。

摘要:如果您删除停用词,结果不会产生任何显着差异。

关于nlp - 使用 word2vec 时删除停用词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34721984/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com