gpt4 book ai didi

python - 微调预训练的 word2vec Google 新闻

转载 作者:行者123 更新时间:2023-12-01 13:30:24 29 4
gpt4 key购买 nike

我目前正在使用在 Google 新闻语料库上训练的 Word2Vec 模型(来自 here)由于这只针对 2013 年之前的新闻进行训练,因此我需要根据 2013 年之后的新闻更新向量并在词汇表中添加新词。

假设我有一个新的 2013 年之后的新闻语料库。我可以重新训练或微调或更新 Google 新闻 Word2Vec 模型吗?可以使用 Gensim 完成吗?可以使用 FastText 完成吗?

最佳答案

你可以看看这个: https://github.com/facebookresearch/fastText/pull/423

它做的和你想做的完全一样:以下是链接内容:

逐步训练分类模型或词向量模型。

./fasttext [supervised | skipgram | cbow] -input train.data -inputModel trained.model.bin -output re-trained [other options] -incr

-incr代表增量训练。

在训练词嵌入时,可以每次都使用所有数据从头开始,或者只使用新数据。对于分类,可以使用所有数据的预训练词嵌入从头开始训练它,或者只使用新的词嵌入,而不改变词嵌入。

增量训练实际上是指,用我们之前得到的数据训练完模型,然后用我们得到的新数据重新训练模型,而不是从头开始。

关于python - 微调预训练的 word2vec Google 新闻,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46244286/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com