gpt4 book ai didi

web-crawler - 你如何使用 PhantomJS 进行爬虫

转载 作者:行者123 更新时间:2023-12-03 14:41:40 27 4
gpt4 key购买 nike

我正在尝试利用 PhantomJS 并抓取整个域。我想从根域开始,例如www.domain.com - 拉取所有链接(a.href),然后获取每个新链接并将新链接添加到该队列(如果它们尚未被抓取或在队列中)。

想法,帮助?

提前致谢!

最佳答案

您可能有兴趣查看 Pjscrape (免责声明:这是我的项目),一个建立在 PhantomJS 之上的开源抓取库。它内置了对爬取页面和从每个页面抓取信息的支持。您可以使用如下简短脚本对整个站点进行爬网,查看每个 anchor 链接:

pjs.addSuite({
url: 'http://www.example.com/your_start_page.html',
moreUrls: function() {
// get all URLs from anchor links,
// restricted to the current domain by default
return _pjs.getAnchorUrls('a');
},
scraper: function() {
// scrapers can use jQuery
return $('h1').first().text();
}
});

默认情况下,这将跳过已被抓取的页面,只关注当前域上的链接,尽管这些都可以在您的设置中更改。

关于web-crawler - 你如何使用 PhantomJS 进行爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8146653/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com