gpt4 book ai didi

java - 比较 Nutch 与 Heritrix

转载 作者:行者123 更新时间:2023-11-29 09:31:19 24 4
gpt4 key购买 nike

我想选择上面的一种来构建特定网站的爬虫框架。这不是 Internet 范围内的爬网。我不是在构建搜索索引,而是对从网站上抓取特定页面感兴趣。

有人可以详细说明上述的优缺点吗?谢谢奈恩

最佳答案

您的主要任务是从网站上抓取特定页面。

Nutch:基于 Lucene Java 构建的开源网络搜索软件

Heritrix:是 Internet Archive 的开源、可扩展、网络规模、文件质量的网络爬虫项目

所以我认为 Heritrix 对于您的项目来说比 Nutch 好得多。

学习框架/库是一项有值(value)的练习。但这需要一些时间。由于您的任务不是很复杂,因此有时用 Java 从头开始​​编写一个简单的爬虫会不那么痛苦

关于java - 比较 Nutch 与 Heritrix,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3262786/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com