gpt4 book ai didi

ruby - Anemone 忽略包含特定短语的 url 链接

转载 作者:数据小太阳 更新时间:2023-10-29 08:40:37 24 4
gpt4 key购买 nike

我在 ruby​​ 上运行一个带有 Anemone 的网络抓取工具,当我的服务器访问需要登录的页面时,我的服务器出现了一些问题。

所有页面的 url 中都有一个短语,例如“account”,我希望程序完全忽略并且不转到包含该字符串的目标的任何链接。

我该怎么做?

最佳答案

Anemone 有一个 skip_links_like method :

skip_links_like(*patterns)
Add one ore more Regex patterns for URLs which should not be followed

所以添加类似的东西

skip_links_like /\/account\//

应该照顾它:

Anemone.crawl("somesite.co.uk", :depth_limit => 1) do |anemone|
anemone.skip_links_like /\/account\//
#...
end

关于ruby - Anemone 忽略包含特定短语的 url 链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7318023/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com