gpt4 book ai didi

web-crawler - 哪个开源爬虫最好?

转载 作者:行者123 更新时间:2023-12-04 20:19:25 24 4
gpt4 key购买 nike

我在比较这四个 Nutch/Heritrix/OpenPipeLine/Apache Tika
哪一个最好?各自的优缺点是什么?
我想要一些可扩展的爬虫,它可以爬取网站列表,并且可以根据需要进行修改。

最佳答案

纳奇 是其中最全的,极其可配置。尝试使用 100m 文档。值得信赖。

Heritrix 也可以正常工作,但不比 好纳奇 .

你可以给 Crawler4j 如果您需要快速爬行,请尝试。

要使用简单的用户界面进行介绍性爬虫并轻松使用和配置爬虫,您可以尝试 websphinx .

蒂卡 不是爬虫:it's a toolkit detects and extracts metadata and structured text content

我有一份需要爬行的工作,但是 OpenPipeLine 不在最喜欢的爬虫列表中。它有一个 UI、作业调度程序;它用于企业解决方案。由于您只想抓取某些网站,因此您不需要这些东西。

关于web-crawler - 哪个开源爬虫最好?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8416065/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com