gpt4 book ai didi

nlp - doc2vec 获得良好性能所需的最小数据集大小是多少?

转载 作者:行者123 更新时间:2023-12-03 01:49:13 25 4
gpt4 key购买 nike

在不同大小的数据集上进行训练时,doc2vec 的表现如何?原始语料库中没有提到数据集大小,所以我想知道从 doc2vec 中获得良好性能所需的最小大小是多少。

最佳答案

有很多东西被称为“doc2vec”,但它似乎最常指的是 Le 和 Mikolov 的“段落向量”技术。

原文'Paragraph Vector' paper描述了在三个数据集上对其进行评估:

  • “斯坦福情感树库”:11,825 个电影评论句子(进一步分为 239,232 个片段短语,每个片段短语只有几个词)
  • “IMDB 数据集”:100,000 条电影评论(每条通常有几百字)
  • 搜索结果“片段”段落:10,000,000 个段落,从前 10 个 Google 搜索结果中针对前 1,000,000 个最常见查询中的每个查询收集

前两个是公开的,因此您还可以查看它们的总字数、典型文档大小和词汇表。 (但请注意,没有人能够在前两个数据集上完全重现该论文的情感分类结果,这意味着他们的报告中存在一些缺失信息或错误。有可能接近 IMDB 数据集。)

一个followup paper应用该算法来发现数据集中的主题关系:

  • 维基百科:4,490,000 篇文章正文
  • Arxiv:从 PDF 中提取的 886,000 篇学术论文文本

因此,这两篇早期论文中使用的语料库范围从数万到数百万个文档,文档大小从几个单词短语到数千字文章。 (但这些作品并不一定混合了大小截然不同的文档。)

一般来说,word2vec/段落向量技术受益于大量数据和各种单词上下文。如果没有至少数万个文档,我不会期望有好的结果。比几个单词长的文档效果更好。如果在同一训练中混合大小或种类截然不同的文档(例如混合推文和书籍),结果可能会更难以解释。

但你确实必须用你的语料库和目标来评估它,因为对于某些目的来说,对某些数据有效的东西可能无法推广到非常不同的项目。

关于nlp - doc2vec 获得良好性能所需的最小数据集大小是多少?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45959618/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com