gpt4 book ai didi

SOLR:从原始文本创建术语向量(如从 TermVectorComponent 返回的数据)

转载 作者:行者123 更新时间:2023-12-02 07:36:43 25 4
gpt4 key购买 nike

使用http://wiki.apache.org/solr/TermVectorComponent我可以获得索引中存储的任何文档的索引术语及其频率。如何获取文本的相同信息而不将文本存储在索引中?我只希望 SOLR 处理文本并返回信息,但不必将文档存储在我的索引中。

最佳答案

据我所知,如果不在 SOLR 中存储数据,这是不可能的。

如果您想要进行文本分析(我知道这比您要求的更广泛),我会推荐以下替代方案:

  1. MAUI - 提取关键短语和术语。
  2. Gensim - 进行主题建模
  3. Kea - 关键词提取

我还遇到过一些进行术语频率分析的 python 脚本。看看Mincemeat ,特别是进行术语频率计算的示例。

关于SOLR:从原始文本创建术语向量(如从 TermVectorComponent 返回的数据),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18243183/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com