- xml - AJAX/Jquery XML 解析
- 具有多重继承的 XML 模式
- .net - 枚举序列化 Json 与 XML
- XML 简单类型、简单内容、复杂类型、复杂内容
我正在使用 Solr 3.6.0 进行全文搜索。我在 schema.xml 中定义了以下字段:
<field name="productNumber" type="ngramtext" indexed="true" stored="true" required="true" />
<field name="additionalTextData" type="text_en" indexed="true" stored="true"/>
我还定义了以下字段类型:
<fieldType name="ngramtext" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.KeywordTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.NGramFilterFactory" minGramSize="2" maxGramSize="3" />
</analyzer>
<analyzer type="query">
<tokenizer class="solr.KeywordTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
这将创建一个大小为 2 和 3 的标记,并将它们放入索引中。非常适合搜索 SKUs .现在他们进入同一个索引,我知道这可能会产生性能问题。但我决定在性能问题出现时处理它。对于我现在的数据集来说,速度还是不错的(主观上来说:))
我还有以下内容:
<uniqueKey>productNumber</uniqueKey>
在 solrconfig.xml 中,我为每个“df”部分放置了 additionalTextData:
="df">="df">additionalTextData<
当我执行以下查询时:
select?indent=on&version=2.2&q=productNumber:12&fq=&start=0&rows=10000&fl=productNumber,additionalTextData&wt=json&explainOther&hl.fl
或
select?indent=on&version=2.2&q=productNumber:12&fq=additionalTextData:*&start=0&rows=10000&fl=productNumber,additionalTextData&wt=json&explainOther&hl.fl
我得到 2345 个结果,其中一些重复。我通过一些产品编号搜索,我可以看到它 2 或 3 次。为什么会这样?我怎样才能克服这个问题?
编辑 1:
我还发现添加:
<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
在所有其他过滤器之后的 ngramtext fieldType 中,没有解决问题。
根据 mbonaci 的解决方案 1:
而不是:
<field name="productNumber" type="ngramtext" indexed="true" stored="true" required="true" />
地点:
<field name="productNumber" type="string" indexed="true" stored="true" required="true" />
<field name="productNumberCopyField" type="ngramtext" indexed="true" stored="true" required="true" />
在字段标签后添加:
<copyField source="productNumber" dest="productNumberCopyField" />
然后,指定以下查询:
select?indent=on&version=2.2&q=productNumberCopyField:12&fq=additionalTextData:*&start=0&rows=10000&fl=productNumber,additionalTextData&wt=json&explainOther&hl.fl
最佳答案
没错,索引分析器将创建 ngram,但随后 Solr 将使用该 ngram 来形成唯一键。这对你有意义吗?多值唯一键?
例如如果您有产品 key tis876a
,最终结果将是 ti is s8 87 76 6a tis is8 s87 876 76a
。这就是您所有的唯一 key 。
因此只需使用 lowercase
类型的复制字段(它没有标记化,只是小写)并使用 tis876a
作为您的产品 key (如果它实际上是您的唯一字段当然是数据模型)。
关于xml - 为什么我会得到以及如何从有关我的唯一字段的 solr 结果中删除重复项?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10977041/
我是一名优秀的程序员,十分优秀!