gpt4 book ai didi

solr - 计算SOLR索引中单词的总频率

转载 作者:行者123 更新时间:2023-12-04 16:09:48 25 4
gpt4 key购买 nike

如果我在 SOLR 索引中搜索一个词,我会得到包含该词的文档的文档计数,但如果该词在文档中包含更多次,则每个文档的总计数仍然为 1。

我需要计算每个返回的文档在字段中搜索单词的次数。

我读了 Word frequency in SolrSOLR term frequency我启用了术语向量组件,但它不起作用。

我以这种方式配置了我的字段:

<field name="text_text" type="textgen" indexed="true" stored="true" termVectors="true" termPositions="true" termOffsets="true" />

但是,如果我进行以下查询:
http://localhost:8888/solr/sources/select?q=text_text%3A%22Peter+Pan%22&fl=text_text&wt=json&indent=true&tv.tf

我没有任何数:
{
"responseHeader":{
"status":0,
"QTime":1,
"params":{
"fl":"text_text",
"tv.tf":"",
"indent":"true",
"q":"text_text:\"Peter Pan\"",
"wt":"json"}},
"response":{"numFound":12,"start":0,"docs":[
{
"text_text":"Text of the document"},
{
"text_text":"Text of the document"},
{
"text_text":"Text of the document"},
{
"text_text":"Text of the document"},
{
"text_text":"Text of the document"},
{
"text_text":"Text of the document"},
{
"text_text":"Text of the document"},
{
"text_text":"Text of the document"}]
}}

我看到“numFound”值为 12,但“彼得潘”一词在所有 12 个文档中出现了 20 次。

你能帮我找出我错在哪里吗?

非常感谢!

最佳答案

我认为首先你的例子是行不通的,因为“彼得潘”不是一个词或术语——它是一个短语。关于寻找短语频率的挑战的一个很好的讨论在这里:

termfreq for a phrase

我会用一个单词而不是短语重新尝试你的例子,看看它是否适合你。

关于solr - 计算SOLR索引中单词的总频率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23371622/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com