gpt4 book ai didi

xml - 为什么我会得到以及如何从有关我的唯一字段的 solr 结果中删除重复项?

转载 作者:数据小太阳 更新时间:2023-10-29 02:36:46 27 4
gpt4 key购买 nike

我正在使用 Solr 3.6.0 进行全文搜索。我在 schema.xml 中定义了以下字段:

<field name="productNumber" type="ngramtext" indexed="true" stored="true" required="true" />  
<field name="additionalTextData" type="text_en" indexed="true" stored="true"/>

我还定义了以下字段类型:

<fieldType name="ngramtext" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.KeywordTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.NGramFilterFactory" minGramSize="2" maxGramSize="3" />
</analyzer>
<analyzer type="query">
<tokenizer class="solr.KeywordTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>

这将创建一个大小为 2 和 3 的标记,并将它们放入索引中。非常适合搜索 SKUs .现在他们进入同一个索引,我知道这可能会产生性能问题。但我决定在性能问题出现时处理它。对于我现在的数据集来说,速度还是不错的(主观上来说:))

我还有以下内容:

<uniqueKey>productNumber</uniqueKey>

在 solrconfig.xml 中,我为每个“df”部分放置了 additionalTextData:

="df">="df">additionalTextData<

当我执行以下查询时:

select?indent=on&version=2.2&q=productNumber:12&fq=&start=0&rows=10000&fl=productNumber,additionalTextData&wt=json&explainOther&hl.fl

select?indent=on&version=2.2&q=productNumber:12&fq=additionalTextData:*&start=0&rows=10000&fl=productNumber,additionalTextData&wt=json&explainOther&hl.fl

我得到 2345 个结果,其中一些重复。我通过一些产品编号搜索,我可以看到它 2 或 3 次。为什么会这样?我怎样才能克服这个问题?

编辑 1:
我还发现添加:

<filter class="solr.RemoveDuplicatesTokenFilterFactory" />

在所有其他过滤器之后的 ngramtext fieldType 中,没有解决问题。

根据 mbonaci 的解决方案 1:
而不是:

<field name="productNumber" type="ngramtext" indexed="true" stored="true" required="true" />

地点:

<field name="productNumber" type="string" indexed="true" stored="true" required="true" />
<field name="productNumberCopyField" type="ngramtext" indexed="true" stored="true" required="true" />

在字段标签后添加:

<copyField source="productNumber" dest="productNumberCopyField" />

然后,指定以下查询:

select?indent=on&version=2.2&q=productNumberCopyField:12&fq=additionalTextData:*&start=0&rows=10000&fl=productNumber,additionalTextData&wt=json&explainOther&hl.fl

最佳答案

没错,索引分析器将创建 ngram,但随后 Solr 将使用该 ngram 来形成唯一键。这对你有意义吗?多值唯一键?

例如如果您有产品 key tis876a,最终结果将是 ti is s8 87 76 6a tis is8 s87 876 76a。这就是您所有的唯一 key 。

因此只需使用 lowercase 类型的复制字段(它没有标记化,只是小写)并使用 tis876a 作为您的产品 key (如果它实际上是您的唯一字段当然是数据模型)。​​

关于xml - 为什么我会得到以及如何从有关我的唯一字段的 solr 结果中删除重复项?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10977041/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com