gpt4 book ai didi

正则表达式拆分 HTML 标签

转载 作者:行者123 更新时间:2023-12-02 05:39:03 26 4
gpt4 key购买 nike

我有一个像这样的 HTML 字符串:

<img src="http://foo"><img src="http://bar">

将其拆分为两个单独的 img 标签的正则表达式模式是什么?

最佳答案

您如何确定您的字符串正是?这样的输入怎么样:

<img alt=">"          src="http://foo"  >
<img src='http://bar' alt='<' >

这是什么编程语言?您是否有某种原因没有使用标准的 HTML 解析类来处理这个问题?只有当您拥有一组非常知名的输入时,正则表达式才是一种好方法。它们不适用于真正的 HTML,仅适用于操纵的演示。

即使您必须使用正则表达式,也应该使用符合语法的正则表达式。这很容易。我已经在无数网页上测试了以下程序。它会处理我上面概述的案例——以及其他一两个案例。

#!/usr/bin/perl
use 5.10.0;
use strict;
use warnings;

my $img_rx = qr{

# save capture in $+{TAG} variable
(?<TAG> (?&image_tag) )

# remainder is pure declaration
(?(DEFINE)

(?<image_tag>
(?&start_tag)
(?&might_white)
(?&attributes)
(?&might_white)
(?&end_tag)
)

(?<attributes>
(?:
(?&might_white)
(?&one_attribute)
) *
)

(?<one_attribute>
\b
(?&legal_attribute)
(?&might_white) = (?&might_white)
(?:
(?&quoted_value)
| (?&unquoted_value)
)
)

(?<legal_attribute>
(?: (?&required_attribute)
| (?&optional_attribute)
| (?&standard_attribute)
| (?&event_attribute)
# for LEGAL parse only, comment out next line
| (?&illegal_attribute)
)
)

(?<illegal_attribute> \b \w+ \b )

(?<required_attribute>
alt
| src
)

(?<optional_attribute>
(?&permitted_attribute)
| (?&deprecated_attribute)
)

# NB: The white space in string literals
# below DOES NOT COUNT! It's just
# there for legibility.

(?<permitted_attribute>
height
| is map
| long desc
| use map
| width
)

(?<deprecated_attribute>
align
| border
| hspace
| vspace
)

(?<standard_attribute>
class
| dir
| id
| style
| title
| xml:lang
)

(?<event_attribute>
on abort
| on click
| on dbl click
| on mouse down
| on mouse out
| on key down
| on key press
| on key up
)

(?<unquoted_value>
(?&unwhite_chunk)
)

(?<quoted_value>
(?<quote> ["'] )
(?: (?! \k<quote> ) . ) *
\k<quote>
)

(?<unwhite_chunk>
(?:
# (?! [<>'"] )
(?! > )
\S
) +
)

(?<might_white> \s * )

(?<start_tag>
< (?&might_white)
img
\b
)

(?<end_tag>
(?&html_end_tag)
| (?&xhtml_end_tag)
)

(?<html_end_tag> > )
(?<xhtml_end_tag> / > )

)

}six;

$/ = undef;
$_ = <>; # read all input

# strip stuff we aren't supposed to look at
s{ <! DOCTYPE .*? > }{}sx;
s{ <! \[ CDATA \[ .*? \]\] > }{}gsx;

s{ <script> .*? </script> }{}gsix;
s{ <!-- .*? --> }{}gsx;

my $count = 0;

while (/$img_rx/g) {
printf "Match %d at %d: %s\n",
++$count, pos(), $+{TAG};
}

给你。没什么!

哎呀,你为什么曾经想要使用 HTML 解析类,既然在正则表达式中处理 HTML 是多么容易。 ☺

关于正则表达式拆分 HTML 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4044946/

26 4 0