gpt4 book ai didi

java - HTMLStripCharFilter 在自定义分析器的 createComponent 实现中不起作用

转载 作者:行者123 更新时间:2023-11-30 02:55:31 33 4
gpt4 key购买 nike

我在自定义分析器实现的 createComponents 实现中使用了 HTMLStripCharFilter,但 HTML 并未从内容中剥离。请在下面找到代码。

@Override
protected TokenStreamComponents createComponents(String fieldName)
{
StandardTokenizer source = new StandardTokenizer();
source.setReader(mStripHTML ? new HTMLStripCharFilter(getReader()) : getReader());
source.setMaxTokenLength(maxTokenLength);
TokenStream result = new StandardFilter(source);
result = new LowerCaseFilter(result);
return new TokenStreamComponents(source, result);
}

最佳答案

您的 CharFilter 不应在 createComponents 方法中定义,而应在 initReader 中定义:

@Override
protected Reader initReader(String fieldName, Reader reader) {
return mStripHTML ? new HTMLStripCharFilter(reader) : reader;
}

@Override
protected TokenStreamComponents createComponents(String fieldName)
{
StandardTokenizer source = new StandardTokenizer();
source.setMaxTokenLength(maxTokenLength);
TokenStream result = new StandardFilter(source);
result = new LowerCaseFilter(result);
return new TokenStreamComponents(source, result);
}

关于java - HTMLStripCharFilter 在自定义分析器的 createComponent 实现中不起作用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37298367/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com