gpt4 book ai didi

screen-scraping - Perl : HTML Scraping from an Authenticated website

转载 作者:行者123 更新时间:2023-12-04 23:11:27 26 4
gpt4 key购买 nike

虽然 HTML Scraping 从我所看到的内容中得到了很好的记录,并且我了解它的概念和实现,但是从隐藏在身份验证表单后面的内容中进行抓取的最佳方法是什么。我指的是从我合法访问的内容中抓取,因此我正在寻找一种自动提交登录数据的方法。

我能想到的就是设置一个代理,从手动登录中捕获吞吐量,然后设置一个脚本来欺骗该吞吐量,作为 HTML 抓取执行的一部分。就语言而言,它很可能在 Perl 中完成。

有没有人有这方面的经验,或者只是一般的想法?

编辑
这是answered before但是使用.NET。虽然它验证了我认为应该如何完成,但有人有 Perl 脚本来做到这一点吗?

最佳答案

查看 Perl WWW::Mechanize库 - 它建立在 LWP 之上,提供工具来执行您所指的那种交互,并且可以在您使用 cookie 时保持状态!

WWW::Mechanize, or Mech for short, helps you automate interaction with a website. It supports performing a sequence of page fetches including following links and submitting forms. Each fetched page is parsed and its links and forms are extracted. A link or a form can be selected, form fields can be filled and the next page can be fetched. Mech also stores a history of the URLs you've visited, which can be queried and revisited.

关于screen-scraping - Perl : HTML Scraping from an Authenticated website,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/190445/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com