regex - 无法通过 WWW::Mechanize 跟踪图像链接-6ren

regex - 无法通过 WWW::Mechanize 跟踪图像链接

转载作者：行者123 更新时间：2023-12-01 02:30:36

24

4

我正在编写 Perl 脚本以获取“当天的天文图像”并将其设置为我的墙纸。然后我会设置一个 cronjob 每天为我做这件事。但是我很难让脚本遵循通向全尺寸图像的图像链接，然后才下载它。
我正在尝试类似下面的代码(请记住，我只是一个对 Perl regex 不太了解的 Perl 初学者):

#!/usr/bin/perl -w
use strict;
use warnings;
use WWW::Mechanize;

my $url = "http://apod.nasa.gov/apod/astropix.html";

my $mech = WWW::Mechanize->new();
$mech->get($url);
    #debugging
if ($mech->follow_link(url_regex=>qr/\.(?:jpg|png)$/)){
    print "Following the image link...";
}else{
    print "Couldn't find the link...";
}

my @img = $mech->find_image(alt_regex => qr/image/i);

    foreach my $img(@img){
     $mech->get($img->url, ':content_file'=>'astro.jpg');
    }

    print "\n";

    exit(0);

任何帮助将非常感激!

最佳答案

你的脚本几乎是正确的。 NASA页面的结构是:

<html>
<body>
  ...
  <a href="http://.../blah.jpg"><img src="http://.../blah-lowres.jpg"></a>
  ...
</body>
</html>

所以，如果 $mech->follow_link成功您已经在 $mech->content 中拥有图像数据.

尝试这个:

$mech->get($url) or die "unable to get $url";
$mech->follow_link(url_regex => qr/\.(jpg|png)\z/) or die "unable to follow image link";
open(my $fh, ">astro.jpg");
print {$fh} $mech->content;
close($fh);
print "saved image as astro.jpg\n";

关于regex - 无法通过 WWW::Mechanize 跟踪图像链接，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13223309/

24

4

0

文章推荐：特征库 - 最小二乘法

文章推荐： javascript - Highcharts - 具有多色图(点)的单系列散点图

文章推荐： arrays - Scala 中结构的快速打包数组

redirect - Nginx 非 www 到 www 和 www 到非 www
我正在使用 nginx on Rackspace cloud following a tutorial并且已经搜索了网络，但到目前为止无法对此进行排序。出于 SEO 和其他原因，我希望 www.my
.htaccess 非 www 到无 www SSL 和 www 到 www SSL
我到处搜索并尝试了各种 .htaccess 配置，但没有找到答案。只访问 .htaccess 文件我想: 将 NON www 定向到 NON www SSL示例:http://example.com
linux - 将 http 非 www 转移到 http www，并将 https 非 www 转移到 https www
下面的 htaccess 命令将所有非 www 转移到 http www RewriteEngine On RewriteCond %{HTTP_HOST} !^www\. RewriteRule ^
.htaccess 重定向 http ://with and without www and https://www to https://non-www
我希望重定向所有内容: http:// http://www. https://www. to https:// 这可能已经在这里得到了回答，但是在浏览了看起来相关的问题后，它们都不完全是我想要的，并
apache - 将所有流量重定向到 https ://www. 目前我有两个版本 http://www 和 https://www
我有一个全新的网站，最初是 http://然后我将网站重定向到 http://www它的工作就像一个魅力，但自从我安装了 SSL 我有两个版本的网站 http://www.example.com和 h
apache - WWW 到 NON WWW Urls(删除 WWW)使用 Apache (.htaccess)
我必须将我的网站从 https://www.example.com/ 重定向到 https://website.com/。 SSL 已正确安装在我的服务器上。我正在使用 Apache 并且必须使用
seo - 使用 .htaccess 删除 www 规范 : should I still verify www and non-www in webmaster tools?
我有一个 SEO 人员让我很困惑。他提到在 Google 网站管理员工具中，我应该验证网站的 www 版本以及非 www(非 www 已经验证)。所以我告诉他没有必要，因为出于规范原因(如 Matt
linux - 给/var/www/site1 到 www-data :www-data crashes all WP sites on server
-- 请参阅下面的 Tl;dr 以获得简短版本-- 在我的 ubuntu-16.04 droplet apache2 和 php7 上都使用用户 www-data。在某些时候，所有三个 wordpre
Tumblr 将自定义域 - WWW 重定向到非 WWW
Tumblr 的文档 ' Using a custom domain name ' 非常有帮助，它清楚地说明我需要创建一个 A唱片为 example.com指向 66.6.44.4 ，以便我的网站可以
dns - 使用云存储桶静态站点将 www 重定向到非 www
我有一个托管在谷歌云存储桶上的静态网站。在我的存储桶前面，我有 cloudflare dns。存储桶是 example.com Cloudflare 设置:CNAME > @ > c.storag
apache - www 到非 www 重定向不起作用
我正在使用以下代码编写 www 到非 www 重定向: RewriteEngine On RewriteBase / RewriteCond %{HTTP_HOST} ^www\.(.*)$ [NC]
Java 正则表达式问题 - .*(www).* 与 (www)
我的一个 friend 目前正在修补 JpCap在 Java 中，我们发现了一些关于 Java 正则表达式的有趣(也许？)问题。只有 HTTP 流量被捕获并随后进行分析。为此，他使用了如下模式: P
linux - 非 www 到带有额外重定向的 www
我目前在 htaccess 文件中使用以下代码，将我的服务器中托管的网站的所有非 www 网址重定向到 www 网址。 RewriteCond %{HTTP_HOST} !^www\. Rewrite
Wordpress www 到非 www 域迁移
我有一个 wordpress 网站 www.domain.com，我们刚刚购买了一个 SSL 证书，但它只适用于 domain.com(没有 www)。我配置了 .htaccess 和站点 url R
apache - 从 www 重定向到非 www
我的 Apache 服务器上的虚拟主机中有以下内容， Redirect permanent / https://domain.com Options
ssl - 将 www 重定向到非 www
我正在尝试将所有流量从 HTTP 站点重定向到 HTTPS 站点，并将所有 www 流量重定向到非 www 站点。我的设置包括 HTTP 站点的 nginx.conf 文件，我已将 301 重定向规则
seo - 哪个规范名称更好？ www 还是非 www？
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 12 年前。 Improve thi
php - Www 和非 www 站点
我有一个域说 http://www.testexample.com .当我登录 http://www.testexample.com然后回到http://testexample.com在浏览器中；登录
amazon-web-services - 如何在 ec2 实例的 tomcat 8 中将 www 和非 www 请求重定向到我网站的 https 非 www 版本
我正在为我的 Web 应用程序使用 EC2 实例。我买了一个新的 SSL 并将其安装在 AWS 经典负载均衡器上，我的 SSL 工作正常。但从 SEO 的角度来看，我想将所有请求从 www 和非 ww
javascript - 在页面 'www.foo.com' 上，从 'www.example.com' 加载的脚本可以向 'www.example.com' 发送 ajax 请求吗？
这是否受跨源策略限制？最佳答案你不能。您只能向 www.foo.com 发送请求。关于javascript - 在页面 'www.foo.com' 上，从 'www.example.com' 加

首页

博学

6Ren·AI

商城

regex - 无法通过 WWW::Mechanize 跟踪图像链接