gpt4 book ai didi

nlp - 加载 fasttext 预训练的德语词嵌入的 .vec 文件抛出内存不足错误

转载 作者:行者123 更新时间:2023-12-04 20:17:31 26 4
gpt4 key购买 nike

我正在使用 gensim 加载 fasttext 的预训练词嵌入
de_model = KeyedVectors.load_word2vec_format('wiki.de\wiki.de.vec')
但这给了我一个内存错误。

有什么办法可以加载它吗?

最佳答案

除了在具有更多内存的机器上工作之外,gensim load_word2vec_format()方法有一个 limit选项,可以给出要读取的向量的计数 n。只会加载文件的前 n 个向量。

例如,只加载第一个 100,000 个单词:

de_model = KeyedVectors.load_word2vec_format('wiki.de\wiki.de.vec', limit=100000)

由于此类文件通常首先对更频繁的词进行排序,而稀有词的“长尾”往往是较弱的向量,因此许多应用程序不会因为丢弃稀有词而损失太多功能。

关于nlp - 加载 fasttext 预训练的德语词嵌入的 .vec 文件抛出内存不足错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50910287/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com