gpt4 book ai didi

html - 使用 perl 剥离除 html 标签之外的所有内容

转载 作者:太空狗 更新时间:2023-10-29 15:14:32 25 4
gpt4 key购买 nike

我一直在寻找一种方法来去除 html 文档中的所有内容,只留下 html 标签。有人知道这个方法吗?我有很多 perl 模块的经验,并且彻底搜索了这个站点。

我想将 html 作为字符串传递给我的 perl 脚本并删除除标签之外的所有内容。这是一个例子:

传入:

<!doctype html>
<html>
<head>
<title>Example Domain</title>

<meta charset="utf-8" />
<meta http-equiv="Content-type" content="text/html; charset=utf-8" />
<meta name="viewport" content="width=device-width, initial-scale=1" />
<style type="text/css">
body {
background-color: #f0f0f2;
margin: 0;
padding: 0;
font-family: "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;

}
div {
width: 600px;
margin: 5em auto;
padding: 50px;
background-color: #fff;
border-radius: 1em;
}
a:link, a:visited {
color: #38488f;
text-decoration: none;
}
@media (max-width: 700px) {
body {
background-color: #fff;
}
div {
width: auto;
margin: 0 auto;
border-radius: 0;
padding: 1em;
}
}
</style>
</head>

<body>
<div>
website content ....
</div>
</body>
</html>

变成:

<html><head><title></title><meta><meta><meta><style></style></head><body><div><h1></h1>       <p></p><p><a></a></p></div></body></html>

最佳答案

#!/usr/bin/perl --
use strict;
use warnings;
use XML::Twig;

Main( @ARGV );
exit( 0 );

sub Main {
if( @_ ){
nothing_but_tags("$_") for @_;
} else {
nothing_but_tags(q{<NoTe
KunG="FoO"
ChOp="SuEy">
NoteKungFo0Ch0pSuEy
<To KunG="FoO">ToKungFo0
<Person KunG="FoO">Satan</Person>
</To>
<Beef KunG="FoO"> BeefKunGFoO <SaUsAGe KunG="FoO">is Tasty
</SaUsAGe>
</Beef>
</NoTe>},
);
}
}

sub nothing_but_tags
{
my( $input, %opt ) = @_;

$opt{pretty_print} ||= 'indented' ;

my $t = XML::Twig->new(
%opt,
force_end_tag_handlers_usage => 1,
start_tag_handlers => {
_all_ => sub {
if( $_->has_atts ){
$_->set_atts ({});
}
return;
},
},
end_tag_handlers => { _all_ => sub { $_->flush; return }, },
char_handler => sub { '' },
);
$t->xparse( $_[0] );
$t->flush();
();
}
__END__
<NoTe>
<To>
<Person></Person>
</To>
<Beef>
<SaUsAGe></SaUsAGe>
</Beef>
</NoTe>

关于html - 使用 perl 剥离除 html 标签之外的所有内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16755041/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com