gpt4 book ai didi

python - 是否有其他方法可以将预先训练的词嵌入完全加载到内存中?

转载 作者:行者123 更新时间:2023-11-30 09:04:48 24 4
gpt4 key购买 nike

我想在我的机器学习模型中使用预先训练的词嵌入。我的词嵌入文件大约有 4GB。目前,我将整个文件读入字典的内存中,每当我想将单词映射到其向量表示时,我都会在该字典中执行查找。

内存使用率非常高,我想知道是否有另一种方法可以使用词嵌入而不将整个数据加载到内存中。

我最近在 Python 中遇到了生成器。他们可以帮助我减少内存使用吗?

谢谢!

最佳答案

您想要完成什么任务?如果这是基于相似性的任务,您可以简单地使用 gensim 中的 load_word2vec_format 方法,这允许您传入加载向量数量的限制。像 Googlenews 这样的集合中的向量是按频率排序的,这将为您提供关键向量。这在理论上也是有道理的,因为频率较低的单词通常具有相对较差的表征。

关于python - 是否有其他方法可以将预先训练的词嵌入完全加载到内存中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55230575/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com