javascript - 如何使用 WWW::Mechanize 抓取具有动态表单的站点？-6ren

javascript - 如何使用 WWW::Mechanize 抓取具有动态表单的站点？

转载作者：行者123 更新时间：2023-11-29 20:17:56

25

4

我喜欢通过使用 Perl 编写网络爬虫从使用一些 Javascript 并且具有以 .aspx 结尾的 URL 的网站检索和存储 HTML 表的值。

Web site提供一些关于选举结果的数据。

您有一个搜索表单，其中有两个选项作为下拉菜单，Province provlist 和 City/Municipality munlist。

您选择省份。网页重新加载到相同的 URL，并更改第二个下拉菜单的可用选项列表，即城市/自治市。
现在您可以选择您的城市/直辖市，点击“搜索”按钮后，一个 HTML 表格将显示结果。

我喜欢检索所有这些表及其结果。

我喜欢用 Perl 来做，但是到目前为止我只写了非常小/简单的脚本。如果您有一些关于我应该如何开始这项任务的一般信息，那将非常有帮助。

我以前使用过一些 WWW::Mechanize 函数，虽然只是少数。我可以使用 WWW::Mechanize 函数来完成这项工作吗，这些函数是否足够？或者我需要额外的包裹吗？
WWW::Mechanize 的常见问题解答指出它在 Javascript 方面存在一些问题。但是，在我读到的另一篇文章中，可以避免使用此 Javascript。为其中一个下拉菜单调用的 Javascript 函数是否会导致问题？
```
<select name="provlist" onchange="javascript:setTimeout('__doPostBack(\'provlist\',\'\')', 0)" id="provlist" tabindex="1">
```
ASPX框架有多麻烦？

正如我之前所说，我只有一点编写 Perl 爬虫的经验，所以任何信息/提示/等等。非常感谢您提供。

最佳答案

足够了。
如果没有 Javascript，表单会降级。使用不同的 provlist 项提交一次表单，例如AGUSAN DEL NORTE，响应页面会有相应的munlist(BUENAVISTA等)，表单会设置为第一个列表项，表格将包含第一项的数据。

关于javascript - 如何使用 WWW::Mechanize 抓取具有动态表单的站点？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5579689/

25

4

0

文章推荐： php - 如何使用 html5 和 mysql 创建多个自动完成字段

文章推荐： php - 通知: unserialize(): Error at offset | data trimmed in MySQL

文章推荐： php - 在 select mysql 上连接数据和文本

redirect - Nginx 非 www 到 www 和 www 到非 www
我正在使用 nginx on Rackspace cloud following a tutorial并且已经搜索了网络，但到目前为止无法对此进行排序。出于 SEO 和其他原因，我希望 www.my
.htaccess 非 www 到无 www SSL 和 www 到 www SSL
我到处搜索并尝试了各种 .htaccess 配置，但没有找到答案。只访问 .htaccess 文件我想: 将 NON www 定向到 NON www SSL示例:http://example.com
linux - 将 http 非 www 转移到 http www，并将 https 非 www 转移到 https www
下面的 htaccess 命令将所有非 www 转移到 http www RewriteEngine On RewriteCond %{HTTP_HOST} !^www\. RewriteRule ^
.htaccess 重定向 http ://with and without www and https://www to https://non-www
我希望重定向所有内容: http:// http://www. https://www. to https:// 这可能已经在这里得到了回答，但是在浏览了看起来相关的问题后，它们都不完全是我想要的，并
apache - 将所有流量重定向到 https ://www. 目前我有两个版本 http://www 和 https://www
我有一个全新的网站，最初是 http://然后我将网站重定向到 http://www它的工作就像一个魅力，但自从我安装了 SSL 我有两个版本的网站 http://www.example.com和 h
apache - WWW 到 NON WWW Urls(删除 WWW)使用 Apache (.htaccess)
我必须将我的网站从 https://www.example.com/ 重定向到 https://website.com/。 SSL 已正确安装在我的服务器上。我正在使用 Apache 并且必须使用
seo - 使用 .htaccess 删除 www 规范 : should I still verify www and non-www in webmaster tools?
我有一个 SEO 人员让我很困惑。他提到在 Google 网站管理员工具中，我应该验证网站的 www 版本以及非 www(非 www 已经验证)。所以我告诉他没有必要，因为出于规范原因(如 Matt
linux - 给/var/www/site1 到 www-data :www-data crashes all WP sites on server
-- 请参阅下面的 Tl;dr 以获得简短版本-- 在我的 ubuntu-16.04 droplet apache2 和 php7 上都使用用户 www-data。在某些时候，所有三个 wordpre
Tumblr 将自定义域 - WWW 重定向到非 WWW
Tumblr 的文档 ' Using a custom domain name ' 非常有帮助，它清楚地说明我需要创建一个 A唱片为 example.com指向 66.6.44.4 ，以便我的网站可以
dns - 使用云存储桶静态站点将 www 重定向到非 www
我有一个托管在谷歌云存储桶上的静态网站。在我的存储桶前面，我有 cloudflare dns。存储桶是 example.com Cloudflare 设置:CNAME > @ > c.storag
apache - www 到非 www 重定向不起作用
我正在使用以下代码编写 www 到非 www 重定向: RewriteEngine On RewriteBase / RewriteCond %{HTTP_HOST} ^www\.(.*)$ [NC]
Java 正则表达式问题 - .*(www).* 与 (www)
我的一个 friend 目前正在修补 JpCap在 Java 中，我们发现了一些关于 Java 正则表达式的有趣(也许？)问题。只有 HTTP 流量被捕获并随后进行分析。为此，他使用了如下模式: P
linux - 非 www 到带有额外重定向的 www
我目前在 htaccess 文件中使用以下代码，将我的服务器中托管的网站的所有非 www 网址重定向到 www 网址。 RewriteCond %{HTTP_HOST} !^www\. Rewrite
Wordpress www 到非 www 域迁移
我有一个 wordpress 网站 www.domain.com，我们刚刚购买了一个 SSL 证书，但它只适用于 domain.com(没有 www)。我配置了 .htaccess 和站点 url R
apache - 从 www 重定向到非 www
我的 Apache 服务器上的虚拟主机中有以下内容， Redirect permanent / https://domain.com Options
ssl - 将 www 重定向到非 www
我正在尝试将所有流量从 HTTP 站点重定向到 HTTPS 站点，并将所有 www 流量重定向到非 www 站点。我的设置包括 HTTP 站点的 nginx.conf 文件，我已将 301 重定向规则
seo - 哪个规范名称更好？ www 还是非 www？
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 12 年前。 Improve thi
php - Www 和非 www 站点
我有一个域说 http://www.testexample.com .当我登录 http://www.testexample.com然后回到http://testexample.com在浏览器中；登录
amazon-web-services - 如何在 ec2 实例的 tomcat 8 中将 www 和非 www 请求重定向到我网站的 https 非 www 版本
我正在为我的 Web 应用程序使用 EC2 实例。我买了一个新的 SSL 并将其安装在 AWS 经典负载均衡器上，我的 SSL 工作正常。但从 SEO 的角度来看，我想将所有请求从 www 和非 ww
javascript - 在页面 'www.foo.com' 上，从 'www.example.com' 加载的脚本可以向 'www.example.com' 发送 ajax 请求吗？
这是否受跨源策略限制？最佳答案你不能。您只能向 www.foo.com 发送请求。关于javascript - 在页面 'www.foo.com' 上，从 'www.example.com' 加

首页

博学

6Ren·AI

商城

javascript - 如何使用 WWW::Mechanize 抓取具有动态表单的站点？