gpt4 book ai didi

search - 为垂直搜索引擎开发爬虫和抓取工具

转载 作者:行者123 更新时间:2023-12-04 15:28:22 27 4
gpt4 key购买 nike

我需要开发一个垂直搜索引擎作为网站的一部分。搜索引擎的数据来自特定类别的网站。我想为此我需要一个爬虫来爬取几个(几百个)站点(在特定的业务类别中)并提取产品和服务的内容和 URL。其他类型的页面可能无关紧要。大多数网站很小或很小(最多几百页)。产品有 10 到 30 个属性。

关于如何编写此类爬虫和提取器的任何想法。我已经使用通常的 ruby​​ 库编写了一些爬虫和内容提取器,但不是一个成熟的搜索引擎。我猜,爬虫不时醒来并从网站下载页面。当然,将遵循通常的礼貌行为,例如检查机器人排除规则。而内容提取器可以在读取页面后更新数据库。如何同步爬虫和提取器?它们应该集成到什么程度?

最佳答案

Nutch建立在 Lucene 之上,并且已经实现了一个爬虫和几个文档解析器。
您也可以hook it to Hadoop可扩展性。

关于search - 为垂直搜索引擎开发爬虫和抓取工具,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1084444/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com