gpt4 book ai didi

python - Gensim Doc2Vec 培训

转载 作者:太空宇宙 更新时间:2023-11-04 09:48:21 27 4
gpt4 key购买 nike

我正在使用 gensim 在分配给特定人员的文档上训练 Doc2Vec 模型。有1000万份文件和8000人。我不关心所有 8,000 人。我关心特定的人群(比如 1 到 500 人)。

我感兴趣的人可能每天都在变化,但我永远不需要查看全部人口。最终目标是获得我感兴趣的人的结果向量。我目前每次都在分配给特定人的文档上训练模型。

我应该在所有 1000 万份文档上训练模型吗?或者我应该只在分配给我感兴趣的人的文档上训练模型?如果在所有 1000 万份文档上对其进行训练很重要,那么我将如何仅为我感兴趣的人获取向量?

最佳答案

对所有 1000 万份文档进行训练是个好主意,这将帮助您捕捉单词的一般本质,而不仅仅是在您感兴趣的作者的上下文中。此外,如果您感兴趣的作者组明天会发生变化。

如果你认为 Doc2Vec 需要很多时间,你也可以使用 Fasttext学习 WordEmbeddings 并对词向量使用简单平均值或 TF-IDF 加权平均值来构建您的 DocumentVector。您可以利用 Fasttext 中分层 softmax(损失函数)的强大功能,将训练时间减少 1000 多倍。

关于python - Gensim Doc2Vec 培训,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48949166/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com