gpt4 book ai didi

java - word2vec:训练语料库中的句子顺序

转载 作者:行者123 更新时间:2023-12-01 10:05:59 31 4
gpt4 key购买 nike

我有一个关于 word2vec 算法的问题。事实上,我的问题是训练语料库中句子的顺序是否重要。例如,给定两个训练语料库:

语料库A:句子 1. 句子 2. 句子 3.

语料库B:句子 3. 句子 1. 句子 2.

word2vec 的结果会有所不同吗?

提前致谢

最佳答案

句子的顺序会影响从文本语料库中学习的嵌入,因为大多数 word2vec 实现都是使用 SGD 进行训练的。

所以回答你的问题 - 是的,word2vec 的结果会有所不同。

如果语料库中的句子顺序对您很重要,我认为 word2vec 不是正确的算法。请记住,单词的输出可能会因多种原因而有所不同,其中很少有 -

  • vector 的随机初始化
  • 负采样
  • 多线程
  • 机器的浮点精度

为了获得更好的结果,我们对训练数据进行多个时期,这在您的情况下是不可能的

关于java - word2vec:训练语料库中的句子顺序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36475237/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com