gpt4 book ai didi

java - 如何忽略 Solr 索引中的某些 HTML 部分(例如页眉、菜单、页脚)?

转载 作者:行者123 更新时间:2023-12-01 23:46:51 25 4
gpt4 key购买 nike

我一直在使用 Nutch + Solr (4.3.0) 来索引站点,并使用 Nutch 提供的 schema.xml。

我的问题是,当我进行的搜索包含标题或菜单上出现的某些单词时,Solr 显然会响应所有页面。

我想要的是从索引中删除这些 HTML block ,以便搜索不包含那些“误报”。

我正在尝试类似的事情:

<charFilter class="solr.PatternReplaceCharFilterFactory" 
pattern="HEADER STARTS(.*?)HEADER ENDS" replacement="" />

应用于我的内容fieldType的索引分析器,即“HEADER STARTS/ENDS”HTML注释,但它似乎根本没有效果。

我无法找到更好的谷歌搜索...但我是这个技术堆栈的真正新手。

欢迎任何帮助!

谢谢!!!

最佳答案

您可以看看boilerpipe 。它是一个专门适合该问题的 java 库。我在一个项目中使用效果很好,但是我用的是普通的Lucene。对于 Solr 集成,有 an open issue

关于java - 如何忽略 Solr 索引中的某些 HTML 部分(例如页眉、菜单、页脚)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16906695/

25 4 0
文章推荐: java - 将 ArrayList 作为参数传递给方法,处理 arrayList 并返回它 - Java