gpt4 book ai didi

python-3.x - Gensim build_vocab 耗时过长

转载 作者:行者123 更新时间:2023-12-04 01:56:54 31 4
gpt4 key购买 nike

我正在尝试使用 gensim 库在 5000 万个可变长度的句子上训练 doc2vec 模型。

一些教程(例如 https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb)在实际训练过程之前有一个 model.build_vocab 步骤。这部分已经运行了 3 个小时,没有任何更新。

这一步是训练过程所必需的吗?为什么这一步会花费这么长时间,因为它只是对数据的线性传递?

使用 gensim 版本 3.4.0 和 python 3.6.0

最佳答案

需要build_vocab() 步骤来发现所有单词,然后设置已知词汇结构。 (不过,如果您将语料库作为参数提供给 Doc2Vec,则 build_vocab()train() 都会自动完成。)

您应该在 INFO 级别启用 Python 日志记录,以查看有关此进度以及其他长时间运行的 gensim 步骤的记录信息。这将帮助您了解进展是否真的正在取得,或者是否在某个时候停止或放缓。

如果词汇发现开始时很快但随后变慢,则可能是您的系统内存太少并且已开始使用非常慢的虚拟内存(交换)。如果它似乎停止了,那么您阅读语料库的方法可能存在无声错误。如果它只是整个过程都很慢,那么你阅读语料库的方法可能有问题。

关于python-3.x - Gensim build_vocab 耗时过长,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49962749/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com