gpt4 book ai didi

machine-learning - 小模型来自Google新闻Word2Vec模型

转载 作者:行者123 更新时间:2023-11-30 09:33:06 24 4
gpt4 key购买 nike

我正在使用 GoogleNews-vectors-male300.bin 模型和 pycontractions当存在诸如 I'd 等不明确含义时,通过机器学习确定扩展收缩的最佳选择的库可以是 I wouldI had 。该模型的大小非常大,大约有3.5Gb。

我认为 3.5Gb 对于我的目的来说是一个非常大的模型。也许我永远不会在这个模型中使用所有单词表示。有没有办法减少大小,只提取对我的目的有用的单词表示的子集?

最佳答案

使用 gensimload_word2vec_format() 方法的可选参数 limit 可以轻松地将集合截断为前 N 个单词。如果存在,则仅加载给定数量的单词。例如,limit=500000 仅从提供的文件中读取前 500,000 个单词。

由于此类文件通常会排序以将最常见的单词放在前面,因此丢弃后面单词的“长尾”通常不会造成太大损失。 (它们在您的文本中出现的频率会降低,并且它们的词向量接受的示例较少,因此质量较低。)

如果您想要磁盘上有一个较小的文件,您可以重新save_word2vec_format() 截断的集合。

您还可以篡改磁盘上的文件,使其仅包含要保留的一些其他单词子集。以文本 (binary=False) 格式执行此操作可能会更容易。查看 load_word2vec_format()/save_word2vec_format()gensim 源代码可以帮助您了解读回的文件必须是什么样子.

关于machine-learning - 小模型来自Google新闻Word2Vec模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50709355/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com