gpt4 book ai didi

python - 如何导入带有句子的文档来训练 doc2vec 模型?

转载 作者:太空宇宙 更新时间:2023-11-03 21:35:49 25 4
gpt4 key购买 nike

我想得到句子之间的余弦相似度。我已经用 gensim 测试了 doc2vec,并仅用代码中给出的几句话对其进行了训练。但我想使用每行一个句子的文本文档来训练我的模型。如何使用带有句子的文档?

最佳答案

如果您的文档已经是文本文件的形式,每行一个句子,那么 gensim(或其他地方)包含的许多示例都会展示如何处理这样的语料库。

例如,在其 docs/notebooks 目录中,有一个与 gensim 捆绑在一起的介绍性 Doc2Vec 教程笔记本,您也可以在项目 github 存储库中在线查看:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb

它的单元格 (3) 显示并且单元格 (4) 使用一个函数来逐行读取文件,并将其转换为模型所需的 TaggedDocument 文本。

关于python - 如何导入带有句子的文档来训练 doc2vec 模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53249919/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com