gpt4 book ai didi

java - Lucene索引没有html css标签java

转载 作者:行者123 更新时间:2023-12-01 23:17:03 27 4
gpt4 key购买 nike

我正在使用 lucene 使用 java 编程语言来索引我的数据。但是,当我检索 lucene 索引的术语时,它们会显示为 html 之类的标签(html 被视为术语而不是标签,lucene 不会删除它)。是否有任何代码或库(例如英语分析器)可以删除所需的 html 标签?

最佳答案

如果你想在 Lucene 中索引之前删除 html 标签,你可以使用 PatternReplaceCharFilter 。它使用正则表达式作为替换字符串的目标。

您可以像这样创建字符过滤器:

CharFilter cf = new PatternReplaceCharFilter(Pattern.compile("<[^>]*>"), "", reader);

这将用空字符串替换所有 html 标签,因此它将被删除。

关于java - Lucene索引没有html css标签java,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58345475/

27 4 0