gpt4 book ai didi

solr - 在使用 nutch 和 solr 抓取或索引期间从 html 中删除菜单

转载 作者:行者123 更新时间:2023-12-01 02:50:05 25 4
gpt4 key购买 nike

我正在使用 nutch 抓取我们的大型网站,然后使用 solr 进行索引,结果非常好。但是,站点上有几个菜单结构可以索引和破坏查询结果。

这些菜单中的每一个都在 DIV 中明确定义,所以 <div id="RHBOX"> ... </div> or <div id="calendar"> ...</div>和其他几个。

我需要在某个时候删除这些 DIVS 中的内容。

我猜测正确的地方是在 solr 索引期间,但无法弄清楚如何。

模式看起来像 (<div id="calendar">).*?(<\/div>)但我无法让它在 <tokenizer class="solr.PatternTokenizerFactory" pattern="(<div id="calendar">).*?(<\/div>)" /> 中工作而且我不太确定将它放在 schema.xml 的何处。

当我将该模式放入 schema.xml 时,它不会解析。

最佳答案

Here is a patch对于 SOLR,您可以将其放置在索引配置中以忽略您配置的标签内容。但是,它只适用于 XML,所以如果您可以整理您的 HTML 或者您知道它是 XHTML,那么这将起作用,但它不适用于任何随机 HTML。

关于solr - 在使用 nutch 和 solr 抓取或索引期间从 html 中删除菜单,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5617373/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com