gpt4 book ai didi

nlp - 如何将 gensim Word2Vec 模型转换为 FastText 模型?

转载 作者:行者123 更新时间:2023-12-01 13:27:00 25 4
gpt4 key购买 nike

我有一个 Word2Vec 模型,它是在一个巨大的语料库上训练的。在将此模型用于神经网络应用程序时,我遇到了很多“词汇量不足”的词。现在我需要为这些“超出词汇量”的词找到词嵌入。所以我做了一些谷歌搜索,发现 Facebook 最近为此发布了一个 FastText 库。现在我的问题是如何将现有的 word2vec 模型或 Keyedvectors 转换为 FastText 模型?

最佳答案

FastText 能够通过在初始训练中包含来自原始语料库的子词片段来为子词片段创建向量。然后,当遇到词汇外 ('OOV') 单词时,它会使用它识别的片段为这些单词构建一个向量。对于具有重复出现的词根/前缀/后缀模式的语言,这会产生比随机猜测 OOV 词更好的向量。

但是,FastText 过程不会从最终的全词向量中提取这些子词向量。因此,没有简单的方法可以将全词向量转换为还包含子词向量的 FastText 模型。

可能有可行的方法来近似相同的效果,例如通过使用具有相同子词片段的所有已知词,并提取一些共同的平均/向量分量以分配给子词。或者将 OOV 词建模为与 OOV 词相距较短编辑距离的词汇表中词的某个平均值。但这些技术并不完全是 FastText,只是模糊地类似于它,它们的工作情况如何,或者可以通过调整工作,将是一个实验性的问题。因此,这不是获取现成库的问题。

this blog post by Sebastien Ruder 中提到了一些研究论文以及其他 OOV 引导思想。 .

如果您需要 FastText OOV 功能,最好的方法是在用于传统全词向量的同一语料库上从头开始训练 FastText 向量。

关于nlp - 如何将 gensim Word2Vec 模型转换为 FastText 模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48017343/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com