gpt4 book ai didi

hadoop - Nutch v Solr v Nutch+Solr

转载 作者:可可西里 更新时间:2023-11-01 15:10:57 26 4
gpt4 key购买 nike

一个相关Question on Stackoverflow存在,但六年半前有人问过。从那时起,Nutch 发生了很多变化。基本上我有两个问题。

  1. 我们如何比较 Nutch 和 Solr?

  2. 我们在什么情况下需要,为什么把这两者结合起来用于爬虫更好?它与在独立模式下(或使用 hadoop)使用它们中的任何一个有何不同?

最佳答案

在当前阶段,Nutch 只负责抓取网页,即访问网页、提取内容、查找更多链接并重复该过程(我跳过了中间的很多复杂内容,但希望你能明白这个想法)。

爬取过程的最后阶段是将数据存储在您的后端(ES/Solr 是 1.x 分支上支持的数据存储)。因此,在这一步中,Solr 开始发挥作用,在 Nutch 完成其工作后,您需要将数据存储在某个地方,以便能够在其之上执行查询:这是 Solr 的工作。

前段时间 Nutch 包含写入倒排索引的功能(如问题中所述),但决定(也是前段时间)弃用此功能以支持使用 Solr/ES(或您使用的任何其他存储)可以为)编写一个索引器插件)。现在,索引插件是可插入的,您可以为您想要的任何数据存储编写插件。

小结:Nutch 是一个爬虫,Solr 是搜索引擎,Nutch 存储爬取的数据。

关于hadoop - Nutch v Solr v Nutch+Solr,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41400634/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com