gpt4 book ai didi

python - Doc2Vec 比 Word2Vec 向量的均值或总和差

转载 作者:太空狗 更新时间:2023-10-30 01:47:47 25 4
gpt4 key购买 nike

我正在训练一个 Word2Vec 模型,例如:

model = Word2Vec(documents, size=200, window=5, min_count=0, workers=4, iter=5, sg=1)

Doc2Vec模型如下:

doc2vec_model = Doc2Vec(size=200, window=5, min_count=0, iter=5, workers=4, dm=1)
doc2vec_model.build_vocab(doc2vec_tagged_documents)
doc2vec_model.train(doc2vec_tagged_documents, total_examples=doc2vec_model.corpus_count, epochs=doc2vec_model.iter)

具有相同的数据和可比较的参数。

在此之后,我将这些模型用于我的分类任务。而且我发现,简单地对文档的 word2vec 嵌入进行平均或求和比使用 doc2vec 向量执行得更好。我还尝试了更多的 doc2vec 迭代(25、80 和 150 - 没有区别)。

关于为什么以及如何改进 doc2vec 结果的任何提示或想法?

更新:这是 doc2vec_tagged_documents 的创建方式:

doc2vec_tagged_documents = list()
counter = 0
for document in documents:
doc2vec_tagged_documents.append(TaggedDocument(document, [counter]))
counter += 1

关于我的数据的更多事实:

  • 我的训练数据包含 4000 个文档
  • 平均 900 字。
  • 我的词汇量约为 1000 个单词。
  • 我用于分类任务的数据平均要小得多(平均 12 个单词),但我也尝试将训练数据拆分成行并像这样训练 doc2vec 模型,但它几乎同样的结果。
  • 我的数据不是关于自然语言的,请记住这一点。

最佳答案

对 word2vec 向量求和/平均通常非常好!

更典型的是使用 Doc2Vec 进行 10 或 20 次迭代,而不是从 Word2Vec 继承的默认 5 次迭代。 (不过我看你已经试过了。)

如果您的主要兴趣是文档向量——而不是某些 Doc2Vec 模式中共同训练的词向量——一定要尝试 PV-DBOW 模式 (dm=0) .它会训练得更快,而且通常表现最好。

如果您的语料库非常小,或者文档非常短,文档向量可能很难变得普遍有意义。 (在某些情况下,减小向量 size 可能会有所帮助。)但特别是如果 window 占平均文档大小的很大一部分,学到了什么通过词向量和文档向量学到的东西将非常非常相似。由于这些词可能会在更多不同的上下文中接受更多次训练,因此它们可能具有更普遍的含义 - 除非您有更大的更长文档集合。

有时有助于改进 Doc2Vec 向量以用于分类目的的其他事项:

  • 在训练结束时重新推断所有文档向量,甚至可能使用不同于 infer_vector() 默认值的参数,例如 infer_vector(tokens, steps=50, alpha=0.025) – 虽然速度很慢,但这意味着所有文档都从相同的最终模型状态获取向量,而不是批量训练遗留下来的向量

  • 在已知分类标签的情况下,将它们添加为经过训练的文档标签,使用 TaggedDocument tags 的功能作为标签列表

  • 对于 Word2Vec 或 Doc2Vec 来说,稀有词本质上只是噪音 - 因此 min_count 大于 1(可能明显更高)通常会有所帮助。 (混合的单例词可能对单个 doc-ID 文档向量特别有害,这些文档向量在设计上也是,单例。训练过程是也是,与doc-vector,试图让那些单例词向量预测它们的单文档邻域...实际上,出于您的目的,您只希望 doc-vector 最具描述性。所以这个建议同时尝试 PV-DBOW 和增加 min_count。)

希望这对您有所帮助。

关于python - Doc2Vec 比 Word2Vec 向量的均值或总和差,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45234310/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com