- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
但最近我发现这个链接对于理解 LSA 的原理非常有帮助,不需要太多的数学知识。 http://www.puffinwarellc.com/index.php/news-and-articles/articles/33-latent-semantic-analysis-tutorial.html 。它为我进一步发展奠定了良好的基础。
目前,我正在寻找有关概率潜在语义分析/索引的类似介绍。更少的数学和更多的例子来解释其背后的原理。如果您知道这样的介绍,请告诉我。
它可以用来衡量句子之间的相似度吗?它能处理一词多义吗?
有同样的Python实现吗?
谢谢。
最佳答案
有一个不错的talk by Thomas Hofmann这解释了 LSA 及其与概率潜在语义分析 (PLSA) 的联系。该演讲涉及一些数学知识,但比 PLSA 论文(甚至其维基百科页面)更容易理解。
PLSA 可用于获取句子之间的一些相似性度量,因为两个句子可以被视为从潜在类的概率分布中提取的短文档。不过,您的相似度在很大程度上取决于您的训练集。用于训练潜在类模型的文档应反射(reflect)您要比较的文档类型。使用两个句子生成 PLSA 模型不会创建有意义的潜在类。同样,使用非常相似的上下文的语料库进行训练可能会创建对文档的细微变化过于敏感的潜在类。此外,由于句子包含相对较少的标记(与文档相比),我不相信您会在句子级别从 PLSA 获得高质量的相似性结果。
PLSA 不处理一词多义。但是,如果您担心一词多义,您可以尝试在输入文本上运行词义消歧工具,以用正确的含义标记每个单词。在此标记语料库上运行 PLSA(或 LDA)将消除生成的文档表示中多义词的影响。
正如 Sharmila 指出的那样,潜在狄利克雷分配 (LDA) 被认为是文档比较的最新技术,并且优于 PLSA,后者往往会过度拟合训练数据。此外,还有更多的工具来支持LDA并分析你用LDA得到的结果是否有意义。 (如果您喜欢冒险,可以阅读 David Mimno's two papers from EMNLP 2011 了解如何评估从 LDA 获得的潜在主题的质量。)
关于nlp - 概率潜在语义分析/索引 - 简介,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6482507/
我是一名优秀的程序员,十分优秀!