gpt4 book ai didi

lucene - 在 Solr 中实现术语关联挖掘的最简单方法是什么?

转载 作者:行者123 更新时间:2023-12-04 02:23:41 24 4
gpt4 key购买 nike

协会挖矿似乎为检索提供了良好的结果 相关术语 在文本语料库中。关于这个主题有几部作品,包括著名的LSA方法。挖掘关联最直接的方法是建立docs X terms的共现矩阵。并查找最常出现在同一文档中的术语。在我之前的项目中,我通过 TermDocs 迭代直接在 Lucene 中实现了它(我通过调用 IndexReader.termDocs(Term) 得到它)。但是我在 Solr 中看不到任何类似的东西。

所以,我的需求是:

  • 检索 最相关的术语 特定领域内。
  • 检索 项,即最接近指定项 特定领域内。

  • 我将按以下方式对答案进行评分:
  • 理想情况下,我想找到直接覆盖指定需求的Solr组件,即直接获取关联术语的东西。
  • 如果这是不可能的,我正在寻找获取指定字段的共现矩阵信息的方法。
  • 如果这也不是一个选项,我想知道 1) 获取所有术语和 2) 获取这些术语出现的文档的 id(编号)的最直接方法。
  • 最佳答案

    您可以将 Lucene(或 Solr)索引导出到 Mahout ,然后使用潜在狄利克雷分配。如果 LDA 不够接近 LSA 满足您的需求,您可以只从 Mahout 获取相关矩阵,然后使用 Mahout 进行奇异值分解。

    我不知道 Solr 的任何 LSA 组件。

    关于lucene - 在 Solr 中实现术语关联挖掘的最简单方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7393908/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com