gpt4 book ai didi

javascript - 使用perl从html文件中的iframe标签加载数据

转载 作者:行者123 更新时间:2023-11-30 17:50:41 25 4
gpt4 key购买 nike

我正在编写一个从 html 文件获取数据的 perl 脚本。我可以使用 WWW::Mechanize 轻松导航到页面并打印输出文件。但是,我需要获取的数据是一个 iframe 标记并且具有动态 src 值。

我还想出了一个使用 XML::Parser 的想法,因为我有网站 XML API。但是,由于我的菜鸟,我不知道如何获取xml链接。

所以我的问题是:

第1:如何显示iframe标签或从中获取数据

第二:如何从网站获取xml链接。

这是我的代码

#!/usr/bin/perl
use strict;
use warnings;

use Getopt::Std;
use XML::Simple;
use WWW::Mechanize;
use HTTP::Cookies;
use LWP::Debug qw(+);


my $username = $opt_u;
my $password = $opt_p;

my $outfile = "out.html";

my $url = "https://t-square.gatech.edu/portal";
my $mech = WWW::Mechanize->new();
$mech->cookie_jar(HTTP::Cookies->new());
$mech->get($url);

$mech->follow_link(text => "Login", n => 1);
$mech->submit_form(
form_id=> 'fm1',
fields => { username => $username,
password => $password
},
button => 'submit',
);
$mech->follow_link(text => "CS-2200-A,GR SUM13", n => 1);
my $response = $mech->follow_link(text => "Assignments", n => 1);
$response = $mech->get('https://t-square.gatech.edu/portal/tool/3a34f619-99d1-4548-be57- 9ee977fd8127?panel=Main');
my $content = $response->decoded_content();
my $parser = new XML::Simple;
my $data = $parser->XMLin($content);
print Dumper($data);
my $output_page = $mech->content();
open(OUTFILE, ">$outfile");
print OUTFILE "$output_page";
close(OUTFILE);

这是我的 out.htm 的一部分输出,框架 src 所在的位置。

...
<iframe name="Main3a34f619x99d1x4548xbe57x9ee977fd8127"
id="Main3a34f619x99d1x4548xbe57x9ee977fd8127"
title="Assignments "
class ="portletMainIframe"
height="475"
width="100%"
frameborder="0"
marginwidth="0"
marginheight="0"
scrolling="auto"
src="https://t-square.gatech.edu/portal/tool/3a34f619-99d1-4548-be57-9ee977fd8127?panel=Main">**
</iframe>
...

我需要的数据在 frame 标签内的 src 链接中。

谢谢。

最佳答案

当您获得 $output_page 时,这显然只是 iframe 内容,将该字符串发送到 HTML 解析器。像我的 HTML::SimpleLinkExtor可能对你有用。但是,我一直在使用 Mojo::DOM最近为了这些事情。还有“How can I extract iframes from text with Perl's Mojo::DOM”。

use v5.10;
use Mojo::DOM;

my $html = ...;

say "Src is ", Mojo::DOM->new( $html )->find( 'iframe' )->[0]->{src};

但是,由于您已经在使用 WWW::Mechanize ,您应该能够使用 find_all_links:

$mech->find_all_links( tag => 'iframe' )

关于javascript - 使用perl从html文件中的iframe标签加载数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19109242/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com