gpt4 book ai didi

solr - 使用 Lucene 分析器链接 Solr HTMLStripCharFilter

转载 作者:行者123 更新时间:2023-12-02 00:25:18 26 4
gpt4 key购买 nike

我想用 FrenchAnalyzer 索引 Html 文本,所以我需要在分析它之前去除 Html。

我想在搜索后突出显示关键字所以solution like this one不起作用,因为我想保留字符位置信息。

我发现 SolR HTMLStripCharFilter 类看起来很完美,但我无法将它与 FrenchAnalyzer 链接起来。

我试图重写 FrenchAnalyzer,但我不知道如何使用 HtmlStripCharFilter,而且它不能作为标准 Lucene 过滤器工作。

我正在使用没有 Solr 的 Lucene 3.5.0

最佳答案

在您的 Analyzer 子类中尝试覆盖 initReader。您可能希望将 stripHtml bool 参数添加到分析器的构造函数中,然后在 initReader 中使用此条件。

/**
* Override this if you want to add a CharFilter chain.
*/
@Override
protected Reader initReader(Reader reader) {
if (stripHtml) {
return new HTMLStripCharFilter(CharReader.get(reader));
} else {
return reader;
}
}

关于solr - 使用 Lucene 分析器链接 Solr HTMLStripCharFilter,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9078015/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com