gpt4 book ai didi

solr - 从页面字段中获取字数统计频率

转载 作者:行者123 更新时间:2023-12-04 06:00:39 24 4
gpt4 key购买 nike

SOLR 报告所有文档中术语的出现次数。我在进行查询时遇到问题,该查询在名为 documentPageId 的特定页面字段中返回出现的术语。

我不知道如何发出适当的 SOLR 查询,该查询返回一段文本的字数,例如字段的术语“放大器”。出于某种原因,它只会返回。

我尝试过的事情只返回该术语出现 1 次的计数,即使我在段落中看到该术语不止一次。

我试过在球场上刻面,“内容”

http://localhost:8983/solr/select?indent=on&q= :&wt=standard&facet=on&facet.field=documentPageId&facet.query=amplifier&facet.sort=lex&facet.missing=on&facet.method=count

<lst name="facet_counts">
<lst name="facet_queries">
<int name="amplifier">21</int>
</lst>
<lst name="facet_fields">
<lst name="documentPageId">
<int name="49667.1">1</int>
<int name="49667.10">1</int>
<int name="49667.11">1</int>
<int name="49667.12">1</int>
<int name="49667.13">1</int>
<int name="49667.14">1</int>
<int name="49667.15">1</int>
<int>0</int>
</lst>
</lst>
<lst name="facet_dates"/>
<lst name="facet_ranges"/>
</lst>
</response>

在 schema.xml 中:



在 solrconfig.xml 中:
   <str name="facet.field">filewrapper</str>
<str name="facet.field">caseNumber</str>
<str name="facet.field">pageNumber</str>
<str name="facet.field">documentId</str>
<str name="facet.field">contents</str>
<str name="facet.query">documentId</str>
<str name="facet.query">caseNumber</str>
<str name="facet.query">pageNumber</str>
<str name="facet.field">documentPageId</str>
<str name="facet.query">contents</str>

提前致谢,

最佳答案

您需要使用 TermVectorsComponent 获取给定文档的词频。 Facets 不会让你到达那里。

请阅读维基 TermVectorCompoment .

选项 tv.tf 将在每个文档的基础上返回给定字段的词频。确保您感兴趣的字段启用了 termVectors ( termVectors="true" )。

<field name="pageField" type="text" indexed="true" stored="true" termVectors="true" />

注:启用术语向量将增加索引大小和索引所需的时间。所以要小心这一点,并在前后进行基准测试。

关于solr - 从页面字段中获取字数统计频率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8948041/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com