perl - Perl 网页的缩略图截图::Mechanize-6ren

perl - Perl 网页的缩略图截图::Mechanize

转载作者：行者123 更新时间：2023-12-04 16:19:06

24

4

我使用 WWW::Mechanize::Firefox 来控制 firefox 实例并使用 $mech->content_as_png 转储呈现的页面。

新更新 :在最初的帖子末尾看到:
感谢 user1126070，我们有了一个新的解决方案 - 我想在当天晚些时候试用 [现在我在办公室而不是在家 - 在装有程序的机器前]

$mech->repl->repl->setup_client( { extra_client_args => { timeout => 5*60 } } );

我试用了 put links to @list and use eval 的版本并执行以下操作:

while (scalar(@list)) {
        my $link = pop(@list);
        print "trying $link\n";
        eval{
        $mech->get($link);
        sleep (5);
        my $png = $mech->content_as_png();
        my $name = "$_";
        $name =~s/^www\.//;
        $name .= ".png";
        open(OUTPUT, ">$name");
        print OUTPUT $png;        
        close(OUTPUT);
        }
        if ($@){
          print "link: $link failed\n";
          push(@list,$link);#put the end of the list
          next;
        }
        print "$link is done!\n";

}

顺便说一句: user1126070 将图像修剪为缩略图大小。我应该在这里使用成像仪吗？你能在这里提出一些解决方案吗......!？那很好啊。

更新结束

这里问题大纲继续 - 正如写在 本问答开始

问题大纲:我有一个包含 2500 个网站的列表，需要抓取它们的缩略图。我怎么做？我可以尝试使用 Perl 解析站点。- Mechanize 将是一件好事。注意:我只需要结果为长尺寸最大为 240 像素的缩略图。目前我有一个缓慢且不返回缩略图的解决方案:如何使脚本以更少的开销运行得更快 - 吐出缩略图

但我必须意识到，设置它可能会带来相当大的挑战。
如果一切正常，您可以简单地使用这样的脚本来转储所需网站的图像，但您应该启动 Firefox 并手动将其调整为所需的宽度(高度无关紧要，WWW::Mechanize::Firefox 总是转储整个页面)。

我有什么 到目前为止完成 很多 - 我和 mozrepl 一起工作。目前我在为超时而苦恼:有没有办法用 WWW::Mechanize::Firefox 指定 Net::Telnet 超时？
目前我的互联网连接很慢，有时我会出错

with $mech->get():
command timed-out at /usr/local/share/perl/5.12.3/MozRepl/Client.pm line 186

看到这个:

> $mech->repl->repl->timeout(100000);

不幸的是它不起作用:无法通过包“MozRepl”找到对象方法“超时”
文档说这应该:

$mech->repl->repl->setup_client( { extra_client_args => { timeout => 1 +80 } } );

我已经尝试过的；这里是:

#!/usr/bin/perl

use strict;
use warnings;
use WWW::Mechanize::Firefox;

my $mech = new WWW::Mechanize::Firefox();

open(INPUT, "<urls.txt") or die $!;

while (<INPUT>) {
        chomp;
        print "$_\n";
        $mech->get($_);
        my $png = $mech->content_as_png();
        my $name = "$_";
        $name =~s/^www\.//;
        $name .= ".png";
        open(OUTPUT, ">$name");
        print OUTPUT $png;
        sleep (5);
}

好吧，这并不关心大小:请参阅输出命令行:

linux-vi17:/home/martin/perl # perl mecha_test_1.pl
www.google.com
www.cnn.com
www.msnbc.com
command timed-out at /usr/lib/perl5/site_perl/5.12.3/MozRepl/Client.pm line 186
linux-vi17:/home/martin/perl #

在这里 - 这是我的来源:查看我在 url-list 中拥有的网站的片段示例。

urls.txt - 来源列表

www.google.com
www.cnn.com
www.msnbc.com
news.bbc.co.uk
www.bing.com
www.yahoo.com and so on...

顺便说一句:有了这么多的 url，我们必须预料到一些会失败并处理它。例如，我们将失败的放在一个数组或散列中，然后重试 X 次。

UTSL

嗯，这里的这个怎么样...

 sub content_as_png {

my ($self, $tab, $rect) = @_;
$tab ||= $self->tab;
$rect ||= {};

# Mostly taken from
# http://wiki.github.com/bard/mozrepl/interactor-screenshot-server
my $screenshot = $self->repl->declare(<<'JS');
function (tab,rect) {
    var browser = tab.linkedBrowser;
    var browserWindow = Components.classes['@mozilla.org/appshell/window-mediator;1']
        .getService(Components.interfaces.nsIWindowMediator)
        .getMostRecentWindow('navigator:browser');
    var win = browser.contentWindow;
    var body = win.document.body;
    if(!body) {
        return;
    };
    var canvas = browserWindow
           .document
           .createElementNS('http://www.w3.org/1999/xhtml', 'canvas');
    var left = rect.left || 0;
    var top = rect.top || 0;
    var width = rect.width || body.clientWidth;
    var height = rect.height || body.clientHeight;
    canvas.width = width;
    canvas.height = height;
    var ctx = canvas.getContext('2d');
    ctx.clearRect(0, 0, width, height);
    ctx.save();
    ctx.scale(1.0, 1.0);
    ctx.drawWindow(win, left, top, width, height, 'rgb(255,255,255)');
    ctx.restore();

    //return atob(
    return canvas
           .toDataURL('image/png', '')
           .split(',')[1]
    // );
}
JS
    my $scr = $screenshot->($tab, $rect);
    return $scr ? decode_base64($scr) : undef
};

期待您的来信!
问候零

最佳答案

你试过这个吗？这是工作？

$mech->repl->repl->setup_client( { extra_client_args => { timeout => 5*60 } } );

将链接放到@list 并使用 eval

while (scalar(@list)) {
        my $link = pop(@list);
        print "trying $link\n";
        eval{
        $mech->get($link);
        sleep (5);
        my $png = $mech->content_as_png();
        my $name = "$_";
        $name =~s/^www\.//;
        $name .= ".png";
        open(OUTPUT, ">$name");
        print OUTPUT $png;        
        close(OUTPUT);
        }
        if ($@){
          print "link: $link failed\n";
          push(@list,$link);#put the end of the list
          next;
        }
        print "$link is done!\n";

}

关于perl - Perl 网页的缩略图截图::Mechanize，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9373924/

24

4

0

文章推荐： ruby - 机械页面大小大于鱿鱼服务器报告的大小

文章推荐： ruby - 如何从 Watir-Webdriver 更改 Opera 的代理设置？

文章推荐： perl - 使用 Perl Mechanize 单击带有 id 但没有名称的按钮

文章推荐： ruby - 使用 Ruby Mechanize 单击带有自定义事件的按钮

mechanize - Mechanize python中的模块错误
我正在使用 mechanize python 登录网站 combochat2.us用户名 mask3和密码findnext ，但它显示了“没有找到 Mechanize 模块”之类的错误 import
mechanize - 如何避免 Mechanize 解析文件或图像的 url？
我在我的 rails 应用程序中使用 gem mechanize 来抓取网页数据。我这样使用它: agent = Mechanize.new document = agent.get("http:/
python, mechanize - 使用 mechanize 打开文本文件
我正在学习机械。我正在尝试打开一个文本文件，您点击的链接显示文本 (.prn)我遇到的一个问题是此页面上只有 1 个表单，并且该文件不在表单中。对我来说另一个问题是此页面上有几个文本文件，但它们都具
mechanize - Beautiful Soup 在解析 Mechanize 输出时遇到问题
def return_with_soup(url): #uses mechanize to tell the browser we aren't a bot #and to retri
python - 如何通过python中的 Mechanize 来 Mechanize 返回页面内的网址？
我正在开发一个项目，使用 python 和 Mechanize 。我有个问题 : Mechanize 返回的页面，有不是的 URLS Mechanize ，如果用户点击它，他们将通过链接他们自己计算
html - Ruby Mechanize - 如何在 Mechanize 解析站点响应之前解析它？
问题: 解析网站时，有些字符会导致 Mechanize 无法正确解析。提出的解决方案解析来自网站的响应以删除这些字符在 Mechanize 之前尝试解析它。或者，在 Mechanize 解析网
ruby - 如何将新字段添加到 Mechanize 表单( ruby /Mechanize )
有一个public class method将字段添加到 Mechanize 表单我试过了.. #login_form.field.new('auth_login','Login') #login_
ruby-on-rails - Mechanize 重定向/Nokogiri(菜鸟使用 Mechanize )
我有一些看起来像这样的东西: def self.foo agent = Mechanize.new form = agent.get("link/to/form/url") form.f
ruby - 是否可以将 Mechanize::File 转换为 Mechanize::Page
我在使用 Mechanize gem 时遇到问题，如何转换 Mechanize::文件进入 Mechanize::页面 , 这是我的一段代码: **link** = page.link_with(:
ruby - 如何从 Mechanize::Page 的搜索方法中获取 Mechanize 对象？
我正在尝试抓取一个只能依靠类和元素层次结构来找到正确节点的站点。但是使用 Mechanize::Page#search 返回 Nokogiri::XML::Element，我不能用它来填写和提交表单等
ruby - Mechanize 的局限性是什么？ mechanize 和 watir 之间的区别是什么
我正在使用 mechanize 来抓取一些网页。我需要知道什么是 Mechanize 限制？ Mechanize 不能做什么？它可以执行网页中嵌入的javascripts吗？我可以用它来调用 j
perl - WWW::Mechanize 中的基本表单方法在 WWW::Mechanize::PhantomJS 中不起作用
在 WWW::Mechanize 中使用表单方法 my @form = $mech->form_number(1); foreach my $sum_form ( @form ) {
mechanize - 如何使用 Mechanize 单击没有 id 和 name 的提交按钮？
找到以下 HTML 代码: 如何使用 Mechanize 单击没有 id 和 name 的提交按钮？最佳答案我已经找到了此类场景的答案，代码如下: agent = Mechanize.new
ruby-on-rails - Rails rake Mechanize - 错误 - 没有要加载的文件 - Mechanize
这个问题不太可能对 future 的访客有帮助；它只与一个小的地理区域、一个特定的时刻或一个非常狭窄的情况相关，通常不适用于互联网的全局受众。如需帮助使这个问题更广泛地适用，visit the hel
ruby - Mechanize/ ruby : `require' : cannot load such file -- mechanize (LoadError)
我一直在尝试使用以下方法从终端运行 ruby 文件: ruby file_cleanse_auto.rb 但是我从 mechanize 得到一个错误: /Library/Ruby/Site/2.0
Ruby Mechanize gem，从本地 html 副本恢复 Mechanize::Page 对象
这是我拥有的代码: agent = Mechanize.new page = agent.get 'http://google.com' page.save 'google_index.htm' 我怎
python - Python Mechanize 错误 - "mechanize._mechanize.BrowserStateError: not viewing HTML"
for link in br.links(url_regex="inquiry-results.jsp"): cb[link.url] = link for page_link in cb.v
ruby-on-rails - 如何从 Mechanize::File 对象转换为 Mechanize::Page 对象？
我有一个登录表单的页面。登录后有一些重定向。第一个看起来像这样: #"no-cache=\"set-cookie\"", "content-length"=>"114", "set-cookie"=>
mechanize - 获取 Mechanize::UnauthorizedError: 401 => Net::HTTPUnauthorized 使用基本身份验证访问 API 时
我正在尝试使用基本身份验证访问 API。它适用于 HTTParty，但不适用于 2.7.6 Mechanize。这是我尝试过的: agent = Mechanize.new agent.log =
Ruby 的 Mechanize 在选择单选按钮时会犹豫(可能是因为它的名称大写)但 Perl 的 WWW::Mechanize 工作正常
我正在尝试使用 Ruby 的 Mechanize gem 提交表单。此表单有一组名为“KeywordType”的单选按钮。各个按钮的名称类似于 rdoAny、rdoAll 和 rdoPhrase。使用

首页

博学

6Ren·AI

商城

perl - Perl 网页的缩略图截图::Mechanize