xml - 为什么我会得到以及如何从有关我的唯一字段的 solr 结果中删除重复项？-6ren

xml - 为什么我会得到以及如何从有关我的唯一字段的 solr 结果中删除重复项？

转载作者：数据小太阳更新时间：2023-10-29 02:36:46

我正在使用 Solr 3.6.0 进行全文搜索。我在 schema.xml 中定义了以下字段:

<field name="productNumber" type="ngramtext" indexed="true" stored="true" required="true" />  
<field name="additionalTextData" type="text_en" indexed="true" stored="true"/>

我还定义了以下字段类型:

<fieldType name="ngramtext" class="solr.TextField" positionIncrementGap="100">
    <analyzer type="index">
        <tokenizer class="solr.KeywordTokenizerFactory"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.NGramFilterFactory" minGramSize="2" maxGramSize="3" />
    </analyzer>
    <analyzer type="query">
        <tokenizer class="solr.KeywordTokenizerFactory"/>
        <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
</fieldType>

这将创建一个大小为 2 和 3 的标记，并将它们放入索引中。非常适合搜索 SKUs .现在他们进入同一个索引，我知道这可能会产生性能问题。但我决定在性能问题出现时处理它。对于我现在的数据集来说，速度还是不错的(主观上来说:))

我还有以下内容:

<uniqueKey>productNumber</uniqueKey>

在 solrconfig.xml 中，我为每个“df”部分放置了 additionalTextData:

="df">="df">additionalTextData<

当我执行以下查询时:

select?indent=on&version=2.2&q=productNumber:12&fq=&start=0&rows=10000&fl=productNumber,additionalTextData&wt=json&explainOther&hl.fl

或

select?indent=on&version=2.2&q=productNumber:12&fq=additionalTextData:*&start=0&rows=10000&fl=productNumber,additionalTextData&wt=json&explainOther&hl.fl

我得到 2345 个结果，其中一些重复。我通过一些产品编号搜索，我可以看到它 2 或 3 次。为什么会这样？我怎样才能克服这个问题？

编辑 1:
我还发现添加:

<filter class="solr.RemoveDuplicatesTokenFilterFactory" />

在所有其他过滤器之后的 ngramtext fieldType 中，没有解决问题。

根据 mbonaci 的解决方案 1:
而不是:

<field name="productNumber" type="ngramtext" indexed="true" stored="true" required="true" />

地点:

<field name="productNumber" type="string" indexed="true" stored="true" required="true" />
<field name="productNumberCopyField" type="ngramtext" indexed="true" stored="true" required="true" />

在字段标签后添加:

<copyField source="productNumber" dest="productNumberCopyField" />

然后，指定以下查询:

select?indent=on&version=2.2&q=productNumberCopyField:12&fq=additionalTextData:*&start=0&rows=10000&fl=productNumber,additionalTextData&wt=json&explainOther&hl.fl

最佳答案

没错，索引分析器将创建 ngram，但随后 Solr 将使用该 ngram 来形成唯一键。这对你有意义吗？多值唯一键？

例如如果您有产品 key tis876a，最终结果将是 ti is s8 87 76 6a tis is8 s87 876 76a。这就是您所有的唯一 key 。

因此只需使用 lowercase 类型的复制字段(它没有标记化，只是小写)并使用 tis876a 作为您的产品 key (如果它实际上是您的唯一字段当然是数据模型)。

关于xml - 为什么我会得到以及如何从有关我的唯一字段的 solr 结果中删除重复项？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10977041/