gpt4 book ai didi

perl - 网络爬虫优化

转载 作者:行者123 更新时间:2023-12-03 17:05:59 26 4
gpt4 key购买 nike

我正在使用向量空间模型构建一个基本搜索引擎,这是用于返回 500 个 URL 并从内容中删除 SGML 标签的爬虫。但是,它非常慢(仅检索 URL 就需要 30 多分钟)。如何优化代码?我插入了 wikipedia.org 作为示例起始 URL。

use warnings;

use LWP::Simple;
use LWP::UserAgent;
use HTTP::Request;
use HTTP::Response;
use HTML::LinkExtor;

my $starting_url = 'http://en.wikipedia.org/wiki/Main_Page';
my @urls = $starting_url;
my %alreadyvisited;
my $browser = LWP::UserAgent->new();
$browser->timeout(5);
my $url_count = 0;

while (@urls)
{
my $url = shift @urls;
next if $alreadyvisited{$url}; ## check if already visited

my $request = HTTP::Request->new(GET => $url);
my $response = $browser->request($request);

if ($response->is_error())
{
print $response->status_line, "\n"; ## check for bad URL
}
my $contents = $response->content(); ## get contents from URL
push @c, $contents;
my @text = &RemoveSGMLtags(\@c);
#print "@text\n";

$alreadyvisited{$url} = 1; ## store URL in hash for future reference
$url_count++;
print "$url\n";

if ($url_count == 500) ## exit if number of crawled pages exceed limit
{
exit 0;
}


my ($page_parser) = HTML::LinkExtor->new(undef, $url);
$page_parser->parse($contents)->eof; ## parse page contents
my @links = $page_parser->links;

foreach my $link (@links)
{
$test = $$link[2];
$test =~ s!^https?://(?:www\.)?!!i;
$test =~ s!/.*!!;
$test =~ s/[\?\#\:].*//;
if ($test eq "en.wikipedia.org") ## check if URL belongs to unt domain
{
next if ($$link[2] =~ m/^mailto/);
next if ($$link[2] =~ m/s?html?|xml|asp|pl|css|jpg|gif|pdf|png|jpeg/);
push @urls, $$link[2];
}
}
sleep 1;
}


sub RemoveSGMLtags
{
my ($input) = @_;
my @INPUTFILEcontent = @$input;
my $j;my @raw_text;
for ($j=0; $j<$#INPUTFILEcontent; $j++)
{
my $INPUTFILEvalue = $INPUTFILEcontent[$j];
use HTML::Parse;
use HTML::FormatText;
my $plain_text = HTML::FormatText->new->format(parse_html($INPUTFILEvalue));
push @raw_text, ($plain_text);
}
return @raw_text;
}

最佳答案

  • 始终 使用严格

  • 从不在子例程调用中使用 & 符号 &

  • 使用 URI操纵 URL

你在那里有一个sleep 1,我认为这是为了避免对网站造成过多的冲击,这很好。但是几乎所有基于 Web 的应用程序的瓶颈都是互联网本身,如果不从站点请求更多,您将无法使您的程序更快。这意味着移除您的sleep 并可能使用例如LWP::Parallel::RobotUA 向服务器发出并行请求。 .这是你应该走的路吗?

关于perl - 网络爬虫优化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15864277/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com