gpt4 book ai didi

machine-learning - 对 DSSM 中的单词哈希感到困惑?

转载 作者:行者123 更新时间:2023-11-30 09:06:43 25 4
gpt4 key购买 nike

本文Learning Deep Structured Semantic Models for Web Search using Clickthrough Data ,它使用单词哈希技术将单词的单热表示转换为字母三元组的(稀疏)向量。

根据我的理解,例如,一个单词look首先被分解为字母三元组[#lo, loo, ook, ok#],然后表示为向量,其中每个三元组为 1,其他地方为 0。通过这样做,它可以减少词向量的维度,同时具有论文中所述的很少的冲突。

我的困惑是,通常如果我们使用词袋表示来表示基于独热表示的文档,我们只是计算每个单词的出现次数。然而我可以想象,如果我们使用基于字母三元组的词袋,很容易就会有不同的单词共享共同的模式,因此似乎很难通过这种表示来恢复文档中哪些单词的信息。

我理解正确吗?这个问题是如何解决的?或者这对论文中的查询/标题实验并不重要?

最佳答案

However I can imagine if we use bag-of-words based on letter trigrams there'll easily be different words sharing common patterns so it seems difficult to recover the information of which words are in the document by such representation.

这是正确的,因为该模型并未明确旨在通过使用单词信息来学习后验概率。相反,它使用三元组中的信息。

How was this issue solved? or it doesn't really matter to the query/title experiment in the paper?

可以通过添加 CNN/LSTM 层来表示三元组输入的更高(接近单词)抽象来解决此问题。该研究报告于this paper在 trigram 输入之上采用 CNN,如下所示。

enter image description here

关于machine-learning - 对 DSSM 中的单词哈希感到困惑?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50229769/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com