gpt4 book ai didi

nlp - Fasttext 算法只使用单词和子单词?还是句子也?

转载 作者:行者123 更新时间:2023-12-03 03:32:28 25 4
gpt4 key购买 nike

我阅读了这篇论文,并在谷歌上搜索了是否有任何学习方法(或更可能的学习过程)的好例子

对于word2vec,假设有语料库句子

I go to school with lunch box that my mother wrapped every morning

然后,在窗口大小为 2 的情况下,它将尝试使用周围的单词来获取“school”的向量

['go', 'to', 'with', 'lunch']

现在,FastText说它使用子词来获取向量,所以它肯定是使用n个子词,例如n=3,

['sc', 'sch', 'cho', 'hoo', 'ool', 'school']

到这里我就明白了。但尚不清楚其他词是否用于“学校”学习。我只能猜测周围的其他单词也像 word2vec 一样被使用,因为论文提到了

=> 术语WcWt都用在函数中

其中 Wc 是上下文单词,Wt 是序列 t 处的单词。

但是,目前尚不清楚 FastText 如何学习单词向量。

.

.

请清楚地解释一下FastText的学习过程是如何进行的?

.

.

更准确地说,我想知道 FastText 在学习 n-gram 特征子词时是否也遵循与 Word2Vec 相同的过程另外。或者只有 n-gram 特征的子词与正在使用的单词?

它如何在初始时对子词进行向量化?等等

最佳答案

任何上下文单词都有其候选输入向量,该向量由其全单词标记和所有字符 n-gram 的组合组装而成。因此,如果上下文单词是“school”,并且您使用 3-4 个字符的 n-gram,则训练中的输入向量是 school 的全词向量的组合,以及['sch', 'cho', 'hoo', 'ool', 'scho', 'choo', 'hool']的所有n-gram向量。 )

当通过训练调整候选向量时,所有组成向量都会被调整。 (这有点像在 word2vec CBOW 模式中,当评估和改进单个平均上下文输入向量的所有单词预测单个目标输出单词的能力时,它们会一起调整。)

因此,那些恰好是许多相似单词的有意义提示的 n 元语法(例如,常见的词根或前缀/后缀)会被定位在它们赋予该含义的位置。 (其他 n-gram 可能大部分仍是低幅度噪声,因为它们出现的位置几乎没有有意义的模式。)

训练后,各个词汇表中单词的报告向量也是通过组合全词向量和所有 n-gram 来构建的。

然后,当你也遇到一个词汇表外的单词时,如果它与形态上相似的训练单词共享一些或许多 n-gram,它会得到一个类似的计算向量 - 因此会比没什么,在猜测这个词的向量应该是什么。 (并且在存在小拼写错误或已知单词略有变体的情况下,合成的向量可能会非常好。)

关于nlp - Fasttext 算法只使用单词和子单词?还是句子也?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49811479/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com