gpt4 book ai didi

machine-learning - 加权词嵌入是什么意思?

转载 作者:行者123 更新时间:2023-11-30 08:23:47 25 4
gpt4 key购买 nike

paper我正在努力实现,它说,

In this work, tweets were modeled using three types of text representation. The first one is a bag-of-words model weighted by tf-idf (term frequency - inverse document frequency) (Section 2.1.1). The second represents a sentence by averaging the word embeddings of all words (in the sentence) and the third represents a sentence by averaging the weighted word embeddings of all words, the weight of a word is given by tf-idf (Section 2.1.2).

我不确定第三种表示形式,它被提到为使用 tf-idf 给出的单词权重的加权单词嵌入。我什至不确定它们是否可以一起使用。

最佳答案

词嵌入的平均(可能是加权)是有意义的,尽管根据主要算法和训练数据,这个句子表示可能不是最好的。直觉如下:

  • 您可能想要处理不同长度的句子,因此需要求平均值(比简单求和更好)。
  • 句子中的某些单词通常比其他单词更有值(value)。 TF-IDF 是最简单的词值度量。请注意,结果的比例不会改变。

另请参阅this paper by Kenter et al 。有一个nice post在不同的算法中对这两种方法进行了比较,并得出结论,没有一种方法明显优于另一种:一些算法倾向于简单平均,一些算法使用 TF-IDF 加权表现更好。

关于machine-learning - 加权词嵌入是什么意思?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47727078/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com