gpt4 book ai didi

machine-learning - 潜在语义分析和显式语义分析之间的区别

转载 作者:行者123 更新时间:2023-11-30 08:36:37 25 4
gpt4 key购买 nike

我正在尝试分析论文 '' Computing Semantic Relatednessusing Wikipedia-based Explicit SemanticAnalysis ”。

其中描述的系统的一个组成部分,我目前正在努力解决的是潜在语义分析和显式语义分析之间的差异。

我一直在写一个文档来概括我的理解,但它有点“拼凑在一起”,来 self 不能 100% 理解的来源,所以我想知道我是否想出了什么是准确的,这里是:

When implementing a process like singular value decomposition (SVD) or Markov
chain Monte Carlo machines, a corpus of documents can be partitioned on the
basis of inherent characteristics and assigned to categories by applying different

weights to the features that constitute each singular data index. In this highdimensional
space it is often difficult to determine the combination of factors
leading to an outcome or result, the variables of interest are “hidden” or latent.
By defining a set of humanly intelligible categories, i.e. Wikipedia article
pages as a basis for comparison [Gabrilovich et al. 2007] have devised a system
whereby the criteria used to distinguish a datum are readily comprehensible,
from the text we note that “semantic analysis is explicit in the sense that we
manipulate manifest concepts grounded in human cognition, rather than ‘latent
concepts’ used by Latent Semantic Analysis”.
With that we have now established Explicit Semantic Analysis in opposition
to Latent Semantic Analysis.

准确吗?

有关此主题的信息有些稀疏。 This question表面上处理类似的问题,但实际上并非如此。

最佳答案

潜在语义分析和所谓的显式语义分析之间的区别在于所使用的语料库以及模拟单词含义的向量的维度。

潜在语义分析从基于文档的词向量开始,它捕获每个词与其出现的文档之间的关联,通常使用 tf-idf 等加权函数。然后,它使用奇异值分解将这些词向量的维数减少到(通常)300。与原始维度(与文档相对应)相比,这 300 个新维度没有直接的解释。因此它们被称为“潜在的”。然后,LSA 可用于通过组合文本中单词的所有向量来对文本进行分类。

从您提到的论文中,我了解到显式语义分析也是一个基于文档的模型:它根据单词出现的维基百科文章对单词进行建模。然而,它与潜在语义分析的不同之处在于(a)不能自由选择语料库(维基百科)并且(b)不涉及降维。同样,可以组合文本中单词的向量来对文本进行分类或以其他方式解释。

关于machine-learning - 潜在语义分析和显式语义分析之间的区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30233314/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com