gpt4 book ai didi

javascript - 站点覆盖的最佳开源蜘蛛

转载 作者:塔克拉玛干 更新时间:2023-11-02 22:20:02 26 4
gpt4 key购买 nike

我有兴趣抓取很多网站。最重要的考虑因素是蜘蛛能够到达尽可能多的站点。大多数蜘蛛程序缺少的一项关键功能是执行 JavaScript 的能力。这是抓取 ajax 支持的站点所必需的。我真的很喜欢开源,我需要为我的项目修改代码。

目前我认为Lucine中的Solr是一个很好的解决方案。 http://lucene.apache.org/solr/features.html

有人用过Solr或Lucine吗?我对 Solr 的最大问题不能执行 javascript,但是它具有丰富的功能集和可扩展性,这两者都使 Solr 具有吸引力。

最佳答案

Solr 不是爬虫,而是搜索引擎(搜索索引以返回结果)。

也就是说,我真的很喜欢heritrix因为它的灵 active 。大多数爬虫不会执行 Javascript(但有些爬虫,如 Heritrix,会尝试从中提取链接),因为即使在今天,这也没有多大意义。问题是 Heritrix 将允许您插入自己的类以对爬取的数据执行任何您希望的操作。

关于javascript - 站点覆盖的最佳开源蜘蛛,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2055054/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com