gpt4 book ai didi

ruby - 如何使用 Anemone 只抓取一个子文件夹

转载 作者:太空宇宙 更新时间:2023-11-03 16:07:02 24 4
gpt4 key购买 nike

我们可以用 Anemone 抓取一个漏洞网站(例如:https://stackoverflow.com/),但是如果我只想关注某个文件夹怎么办(例如:https://stackoverflow.com/ >问题)。我怎样才能做到这一点 ?也许使用“focus_crawl”方法?

最佳答案

检查 keep_if 方法可能会有帮助

http://danneu.com/posts/8-scraping-a-blog-with-anemone-ruby-web-crawler-and-mongodb#toc_1

试着传递你想要抓取的模式

还有一个要点https://gist.github.com/1149906 .

注意:我还没有测试过,但你一定可以试试。

关于ruby - 如何使用 Anemone 只抓取一个子文件夹,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11868748/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com