gpt4 book ai didi

html - 使用 Perl 正则表达式计算 html 标签

转载 作者:行者123 更新时间:2023-11-28 00:02:30 24 4
gpt4 key购买 nike

我正在尝试解析 HTML 文件以计算 HTML 标记。不过我对 Regexp 不是很熟悉。

我当前的代码仅按行计数。不是一个标签一个标签。它返回整行。

while(<SUB>){
while(/(<[^\/][a-z].*>)/gi){
print $_;
$count++;
}
}

假设我们在文件中有这样一行

<div>blahblahblah</div><h1>hello</h1><p>blah</>

我需要提取每个 HTML 标签的开始标签以及像 <hr> 这样的标签, <br><img> .

你能帮我指明正确的方向吗?

最佳答案

如果你想计算文档中的 HTML 标签,我建议你使用 HTML::Treebuilder。

use strict;
use HTML::Tree;
use LWP::Simple;

my $ex = "http://www.google.com";

my $content = get($ex);

my $tree = HTML::Tree->new();

$tree->parse($content);

my @a_tags = $tree->look_down( '_tag' , 'div' );


my $size=@a_tags;
print $size;

现在您可以指定不同的标签名称而不是 div 并计算您需要的所有不同标签。我建议学习 HTML::Treebuilder,因为它是一个非常有用的模块,您可能会发现有用的方法。

关于html - 使用 Perl 正则表达式计算 html 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20603250/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com