php - html 文档中的正则表达式 : match all but every <(pre|code|textarea)>(. *?)</\\1>-6ren

php - html 文档中的正则表达式 : match all but every <(pre|code|textarea)>(. *?)

转载作者：太空狗更新时间：2023-10-29 15:05:18

这是一个挑战!

正如标题所说，我想匹配 HTML 文档中除 <pre>、<code> 和 <textarea> 标签之外的所有内容(例如，您可以尝试以下文本)。

在我的情况下，目的是压缩 html，删除\n\t\r 和其他清理，除非像 textarea 那样严格要求。

当我在 PHP 中工作时，我也考虑过提取这些标签内容，在 PHP 中处理其余部分并将它们重新注入(inject)到 PHP 中。但我很好奇在正则表达式中做到这一点的方法!

我试过伟大的在线编辑器:http://regex101.com/表达式 ((?=.?)((?!<pre>).))带有标志 'msg' 但不是我想要的。

任何帮助将非常感激!

Lorem ipsum dolor sat amet，consectetuer adipiscing elit，sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat。 Ut wisi enim ad minim veniam, quis nostrud exerciation ullamcorper suscipit lobortis nisl ut aliquip ex ea commodo consequat。

Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse Molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent praesent praesent de luptilitatum nulla facilisis at vero eros et accumsan et iusto odio dignissim Nam Liber tempor cum soluta nobis eleifend option congue nihil imperdiet doming id quod mazim placerat facer possim assum。
Typi non habent claritatem insitam; est usus legentis in iis qui facit eorum claritatem。

调查示威游行 lectores legere me lius quod ii legunt saepius。
Claritas est etiam processus dynamicus，qui sequitur mutationem consuetudium lectorum。

Mirum est notare quam littera gothica、quam nunc putamus parum claram、anteposuerit litterarum formas humanitatis per seacula quarta decima et quinta decima。

Eodem modo typi，qui nunc nobis videntur parum clari， future 的未婚夫。

最佳答案

你可以使用这个:

$pattern = <<<'LOD'
~
# definitions : 
(?(DEFINE) (?<tagBL> pre | code | textarea | style | script )
     (?<tagContent> < (\g<tagBL>) \b .*? </ \g{-1} > )
     (?<tags> < [^>]* > )
     (?<cdata> <!\[CDATA .*? ]]> )

     (?<exclusionList> \g<tagContent> | \g<cdata> | \g<tags>)
)

# pattern :
\g<exclusionList> (*SKIP) (*FAIL) | \s+
~xsi
LOD;

$html = preg_replace($pattern, ' ', $html);

请注意，这是一种通用方法，您可以通过在排除列表中添加或删除内容来轻松地使其适应特定情况。
如果您需要其他类型的替换，您也可以通过使用捕获组和 preg_replace_callback() 来调整它。 .

另一个注意事项:html 标签保持打开状态，直到结束标签。如果结束标签不存在，则该标签之后的所有内容都属于该标签，直到字符串结束。要解决这个问题，您可以更改 </ \g{-1} >至 (?: </ (?:\g{-1}| head | body | html) > | $)例如在标签内容定义中，或者编写更高级的规则。

编辑:
您可以在 the php manual 中找到一些信息:

nowdoc 语法是定义字符串的另一种语法。在不修改其布局并避免有关是否转义引号的问题的情况下，使多行字符串更具可读性是非常有用的。 nowdoc 语法与单引号具有相同的行为，即变量不会被解释为转义格式标记，如 \t或 \n .如果您想要与双引号相同的行为，请使用 heredoc 语法。

您可以在 http://pcre.org/pcre.txt 中找到一些信息:

首先:模式分隔符

大多数时候，人们用 / 来写他们的模式。分隔符。 /Gnagnagna/ , /blablabla/ixUums等。但是当他们编写一个包含大约一千或一百万个斜杠字符的模式时，他们更喜欢逐个转义千位斜杠，以选择另一个分隔符!使用 PHP，如果它不是字母数字字符，您可以选择所需的模式分隔符。我选择了 ~而不是 /出于三个原因:

如果我选择~ , 我不必转义斜杠，因为分隔符和文字字符没有歧义。

我从来没有在这个网站的高峰月份看到有人要求一个里面有波浪号的图案。

我敢肯定，如果有一天有人问一个带波浪号的模式，我遇到了第三种。

第二:如何让长模式更具可读性？

PCRE(Perl 通用正则表达式，PHP 使用的正则表达式引擎)有办法使代码更具可读性。这些方式与您在公共(public)代码中可以找到的完全相同:

您可以忽略空格

您可以添加评论

您可以定义子模式

对于 1 和 2，很简单，您只需要添加 x 修饰符(这就是您在末尾找到 x 的原因)。 x 修饰符允许忽略空格的详细模式，您可以在其中添加这样的注释 # comment在行尾。

关于子模式:您可以使用命名组，例如:而不是写 ~([0-9]+)~要匹配和捕获组 1 内的数字，您可以写 ~(?<number>[0-9]+)~ .现在，使用这个命名的子模式，您可以使用 \g{number} 引用捕获的内容。或使用 \g<number> 到模式本身, 模式中的任何位置。例子:

~^(?<num>[0-9]+)(?<letter>[a-z]+)\g<num>\g<letter>$~

将匹配 45ab67cd

~^(?<num>[0-9]+)(?<letter>[a-z]+)\g{num}\g<letter>$~

将匹配 45ab45cd但不是 45ab67cd
在这两个示例中，命名子模式是主模式的一部分并匹配字符串的开头。但是使用 (?(DEFINE)...)语法，您可以在主模式之外定义它们，因为您在这些括号之间编写的所有内容都不匹配。

~(?(DEFINE)(?<num>[0-9]+)(?<letter>[a-z]+))^\g<num>\g<letter>$~

不匹配 45ab67cd ，因为都在 DEFINE里面匹配部分将被忽略，但是:

~(?(DEFINE)(?<num>[0-9]+)(?<letter>[a-z]+))^\g<num>\g<letter>\g<num>\g<letter>$~

做。

第三:相对反向引用

在模式中使用捕获组时，可以使用对捕获内容的引用，例如:

$str = 'cats meow because cats are bad.';

$pattern = '~^(\w+) \w+ \w+ \1 \w+ \w+\.$~';

var_dump(preg_match($pattern, $str));

当前代码返回 true因为模式匹配字符串。在图案中， \1指的是第一个捕获组的内容 ( cats )。而不是写 \1 ，您可以使用 oniguruma 语法和写作 \g{1}也指第一个捕获组，它是相同的。

现在，如果你想引用 的内容最后 捕获组，但您不关心组的编号(或名称)，可以使用 相关引用通过写作 \g{-1} (即我左边的第一组)

第四:修饰符 xsi

模式的一般行为可以通过修饰符来改变。这里我使用了三个修饰符:

x # for verbose mode
i # make the pattern case insensitive (i.e. '~CaT~i' will match "cat")
s # (singleline mode): by default the . doesn't match newline, with the s modifier it does.

最后:回溯控制动词

回溯控制动词是从 perl 正则表达式引擎继承的实验性功能(状态在 perl 中也是实验性的，但如果没有人使用它，它不会改变)。

什么是回溯？

如果我尝试匹配 "aaaaab"与 ~a+ab~正则表达式引擎，自 +是一个贪婪的量词，将捕获所有 a (五一)，但之后它只留下一个 b与子模式不匹配 ab .正则表达式引擎的唯一方法是取回一个 a ，然后可以匹配 ab .这是正则表达式引擎的默认行为。

更多关于回溯 here和 here .

回溯控制动词是强制正则表达式引擎具有您想要的子模式行为的工具。

这里我用了两个动词: (*SKIP)和 (*FAIL) (*FAIL)是最容易的。子模式被迫立即失败。
(*SKIP) :当子模式在此动词之后失败时，正则表达式引擎无权回溯此动词之前匹配的字符。并且此内容不能重用于另一个替代子模式。

我明白所有这些事情并不总是那么容易，但我希望，一步一步，有一天，所有这些事情都会为你一清二楚。

关于php - html 文档中的正则表达式 : match all but every <(pre|code|textarea)>(. *?)</\\1>，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20421646/

文章推荐： javascript - 播放媒体的 AudioContext 平移音频

文章推荐： c - SHFileOperation:删除文件时随机引发异常

文章推荐： html - 在演示文稿中包含交互式本地 R

java - and 之间的区别
大家好，我看到了来自 java 项目中的 jsp 页面。想问一下这些html标签有什么区别。请多多指教。示例代码如下: 最佳答案使用struts-html标签库，其中只是普
html - HTML 页面中损坏的 HTML
我有一个页面，我正在从电子邮件中读取 HTML。有时，来自电子邮件的文本包含 HTML 和 CSS，它完全改变了我的页面样式。我不希望我的页面样式因此受到影响。我如何严格阅读特定 div(框)内的
html - HTML 中的图像 - HTML 表中行之间的间距
我知道有类似的问题，但我想对我的特定代码进行一些输入。我有一个图像，我将其切成 9 块，并创建了一个 3x3 HTML 表来显示它。但是我的表在行之间有空格，但在列之间没有空格。我没有使用任何 C
html - 为什么我的本地 html 链接会转到父文件夹而不是 .html？
编辑:Waylan 的回答成功了!谢谢! 我正在尝试压缩文档的 .html 文件以发送给客户。目标是获得与浏览实际网站相同的体验。打开 .html 文件时，单击的任何链接都会转到父文件夹，而不是特定
html - 为什么我的本地 html 链接会转到父文件夹而不是 .html？
编辑:Waylan 的回答成功了!谢谢! 我正在尝试压缩文档的 .html 文件以发送给客户。目标是获得与浏览实际网站相同的体验。打开 .html 文件时，单击的任何链接都会转到父文件夹，而不是特定
html - 如何解析和规范化来自不同 HTML 生成器的 HTML？
这是 question 的扩展.我正在尝试解析嵌入在 Blogger 博客的 XML 备份中的 HTML 片段，并用 InDesign 标签重新标记它们。 Blogger 并未对其任何帖子的 HTML
html - html 元素之间的换行符破坏了 html 布局
我知道在 html 中元素之间的换行符被视为空格，但我认为当您尝试使用响应式布局时这非常可怕。例如，这里我们有预期和正确的行为，但要获得它，我必须删除元素之间的 html 中的换行符: https:
html - 将带有 html 标签的文本显示为 html
我正在尝试将文本文件显示为 html。我正在使用 ionic 。我正在发送一个 html 格式的响应，但在一个文本文件中发送到配置文件页面。它在 .ts 页面的变量名中。 @Component({
html - 如何在 html 中显示 html？
假设我有一个 html 文档: test 我想在浏览器中显示该代码。然后我会创建类似的东西: <html>test<html> 为了在中间制作 gubbins，我有一个函数
html - HTML 元素和 HTML 标签有什么区别？
HTML 元素和 HTML 标签有什么区别？渲染有什么区别吗？使用标签或元素时有什么特殊注意事项吗？最佳答案是一个标签，特别是一个开始标签也是一个标签，一个结束标签 This is a para
html - 降低 html 表格高度和过度滚动 - HTML
我有这个表格的模态形式。该表正在填充大量数据，但我不想分页。相反，我想以模式形式降低表格的高度并为表格添加溢出。下面是我的代码，但它不起作用。请问我该如何实现？ CSS #table{
html - 查看 HTML 代码而不是呈现的 HTML
我记得有一个 Linux 命令可以从给定的 URL 返回 HTML 代码。您可以将 URL 作为此命令的参数，然后返回 HTML 代码，而不是在浏览器中输入 URL。哪个命令执行此操作？最佳答案
html - 在 html 中显示 html
我有一个 html 页面，我想在其中包含另一个有很多链接的 html 页面。我能够使用 iframe 实现它，但我希望 iframe 内的页面具有与原始页面相同的文本和链接颜色属性，我不想要滚动条，我
html - 如何从另一个 HTML 加载部分 HTML？
我正在使用 HTML 写一本书。如果我把它写在一个 html 文件中，整个代码就会变长，所以我想将每一章保存到不同的文件中，然后将它们加载到主 html 中。我的意思是有像 chapter1.html
html - 将 html 页面重定向到另一个 html
在显示之前，我必须将一个网站重定向到另一个网站。我试过使用 .htaccess，但它给我带来了问题。我也使用过 javavscript 和 meta，但在加载我要从中传输的页面之前它不起作用。帮助？
html - 将网页 html 转换为电子邮件 html
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 7 年前。
html - 使用 html 打印 ""
如何打印“html”标签，包括“”？如何在不使用文本区域和 Javascript 的情况下对任何标签执行此操作？最佳答案使用HTML character references : <html
html - 如何将 html.slim 文件转换为 html 或 html.erb？
我需要将 Ruby on Rails 应用程序中的 html.slim 文件转换为 html.erb。有什么简单的方法吗？我尝试了 Stack Overflow 和其他网站中列出的许多选项。但对我没有
html - 没有标签可以创建 HTML 文档吗？
这个问题在这里已经有了答案: Is it necessary to write HEAD, BODY and HTML tags? (6 个答案) 关闭 8 年前。我在 gitHub 上找到了这个
html - 什么是加载外部资源的 HTML 元素列表？ (HTML 电子邮件)
如果不允许通过 JavaScript 进行额外的 DOM 操作，我正在寻找可以加载外部资源的元素列表。我正在尝试使用 HTML 查看器托管来自第三方的电子邮件，当发生这种情况时，我需要删除任何自动加载

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

php - html 文档中的正则表达式 : match all but every <(pre|code|textarea)>(. *?)