gpt4 book ai didi

tensorflow - Word2Vec 应该训练多少个 epoch?推荐的训练数据集是什么?

转载 作者:行者123 更新时间:2023-12-02 16:22:40 25 4
gpt4 key购买 nike

我正在使用 TensorFlow 教程学习 Word2Vec。我为 Word2Vec 运行的代码也来自 TensorFlow 教程:https://github.com/tensorflow/models/blob/master/tutorials/embedding/word2vec_optimized.py 。当我运行代码 15 个 epoch 时,测试准确率约为 30%。当我运行 100 个 epoch 时,测试准确率达到了 39% 左右。我使用 Text8 数据集进行训练,使用 questions-words.txt 进行评估。

我需要运行更多纪元吗?我应该使用不同的数据集吗?如何提高测试准确性?

最佳答案

数据集越大越好; text8 非常非常小——足以展示词向量的一些类比解决能力,但对于其他目的来说还不够好。

更多的迭代可能有助于从较小的数据集中挤出更强的向量,但 yield 递减。 (对弱数据集进行多次额外迭代都无法提取出更大、更多样化的语料库所能提供的同样丰富的相互关系。)

有一个相关的 text9 来自同一来源,如果我没记错的话,它大 10 倍。与在 text8 上进行 10 倍以上的迭代相比,使用它可能会获得更好的评估结果。

我相信 Google 曾经发布的 300 万个预训练向量(GoogleNews 集)是在包含 1000 亿字新闻文章的语料库上进行训练的,但只需要 3 次传递。

请注意,词向量质量没有单一标准:questions-words.txt 类比解决只是一种方便的评估,但最擅长的词向量可能不会是最擅长您自己的特定领域分析。同样,在一个文本域上训练的词向量(例如新闻文章中设置的 GoogleNews),与更匹配您的域的文本(例如论坛帖子、科学文章等)相比,可能表现不佳。都以不同的方式使用不同的词)。

因此,通常最好使用您自己的语料库和您自己特定目标的定量评估,以帮助调整语料库/参数选择。

关于tensorflow - Word2Vec 应该训练多少个 epoch?推荐的训练数据集是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46856838/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com