gpt4 book ai didi

ruby-on-rails - 需要使用 Anemone 登录的抓取页面

转载 作者:太空宇宙 更新时间:2023-11-03 16:44:37 25 4
gpt4 key购买 nike

我通过以下方式使用 Anemone gem:

  • 访问第一个 url(种子),将页面内容保存到数据库,并将该页面的所有链接也保存到数据库(所有尚未在数据库中的链接)
  • 从数据库中加载下一个链接,再次保存其内容和任何其他链接
  • 如果没有其他链接,重新抓取所有链接(一段时间后),用新内容覆盖旧内容

这很好用,但是有没有可能如何抓取需要登录的页面(如果我知道用户名和密码)?我知道 Mechanize gem 提供了填写表格的功能,但我不知道如何将它集成到我的流程中(如果可能的话)。或者有没有其他方法可以抓取登录表单“后面”的页面?

最佳答案

对于您的情况,我建议使用以下解决方案之一:

因为这两个解决方案允许您填写表单并单击 Web 元素并执行默认 Internet 用户的任何操作。这在 Mechanize gem 的情况下是不可能的。

关于ruby-on-rails - 需要使用 Anemone 登录的抓取页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36661388/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com