gpt4 book ai didi

solr - 使用 Solr 处理变音符号和重音符号

转载 作者:行者123 更新时间:2023-12-01 12:49:39 28 4
gpt4 key购买 nike

我们使用 Solr 3.6 来索引文档集合 (DBLP)。一些文档的元数据是德语的。我们使用 ASCIIFoldingFilterFactory(参见 schema.xml)来处理元音变音和重音符号。

当搜索 title:Unterstutzung 时,会返回多个结果,但当搜索 title:Unterstützung 时,即使有包含 Unterstützung< 的文档,也没有任何结果/em> 在他们的标题字段中。

在管理 Web 界面中使用分析器显示查询术语和文档术语已按预期编制索引和处理。但是为什么当查询中有元音变音时我们得不到任何结果?

schema.xml 中标题字段的定义:

<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<charFilter class="solr.HTMLStripCharFilterFactory"/>
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.ASCIIFoldingFilterFactory"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="1" splitOnCaseChange="1" preserveOriginal="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.EnglishPorterFilterFactory"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.ASCIIFoldingFilterFactory"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1" preserveOriginal="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.EnglishPorterFilterFactory"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
</fieldType>

完整的 schema.xml:http://pastebin.com/rQDw30nA

文档和查询中 Unterstützung 的分析器输出:http://pastebin.com/6cxSnGwP (在查询中,已处理的术语 unterstutzung 突出显示)

最佳答案

这是 Tomcat 的一个简单编码问题。必须将以下属性添加到 server.xml:

<Server ...>
<Service ...>
<Connector ... URIEncoding="UTF-8"/>
...
</Connector>
</Service>
</Server>

http://wiki.apache.org/solr/SolrTomcat#URI_Charset_Config

关于solr - 使用 Solr 处理变音符号和重音符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13473292/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com