gpt4 book ai didi

search - 解决方案+遗传

转载 作者:行者123 更新时间:2023-12-01 12:48:26 27 4
gpt4 key购买 nike

如何将 solr 与 heritrix 集成?

我想使用 heritrix 归档一个站点,然后使用 solr 在本地索引和搜索该文件。

谢谢

最佳答案

使用 Solr 进行索引的问题在于它是一个纯文本索引(如果您只抓取内部网站并且不关心“pagerank”,这可能没问题)。

使用 Nutch 会为您提供更好的索引,因为它确实使用了 pagerank。

坚果蜡

但是,如果您对使用 Heritrix 不满意并且想要基于 pagerank 的搜索结果,您可以使用 NutchWAX (Nutch Web Archive eXtensions)索引 Heritrix 的输出(这就是 Heritrix 的制造商正在做的事情)。

NutchWAX 旨在用于网络存档,但也可用于创建实时网络的搜索引擎(事实上,这更容易,因为您不会在每次重建索引期间拖拽多年的有值(value)的数据)。

Solr

如果您确实想使用 Heritrix+Solr 来创建一个搜索网站,您可能应该将 Heritrix 中的“ARCWriter”处理器替换为一个将页面内容提交给 Solr 的自定义处理器。

Solr 端只是一个通过 HTTP 发布的 XML 文件,非常简单。

Heritrix 端有点复杂,但 Developer's Manual将让您开始为 Heritrix 1.x 编写处理器(如果您使用的是 --as yet-- unstable 3.x -- 或 discontinued 2.x -- 你需要做更多的工作,因为文档还没有。)。

关于search - 解决方案+遗传,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1665084/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com