gpt4 book ai didi

machine-learning - 使用词嵌入时处理缺失词的最佳方法是什么?

转载 作者:行者123 更新时间:2023-11-30 08:33:28 25 4
gpt4 key购买 nike

我有一组预先训练的 word2vec 词向量和一个语料库。我想用词向量来表示语料库中的单词。语料库中有一些单词我没有训练过的单词向量。处理没有预训练向量的单词的最佳方法是什么?

我听到了一些建议。

  1. 对每个缺失的单词使用一个由零组成的向量

  2. 对每个缺失的单词使用随机数向量(并提供一系列有关如何绑定(bind)这些随机数的建议)

  3. 我的一个想法:取一个向量,其值是所有预训练向量中该位置上所有值的平均值

任何有解决这个问题经验的人都知道如何处理这个问题吗?

最佳答案

Facebook 的 FastText 从子词 n 元语法中组装单词向量,使其能够处理词汇表之外的单词。有关此方法的更多信息,请访问:Out of Vocab Word Embedding

关于machine-learning - 使用词嵌入时处理缺失词的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48697595/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com