gpt4 book ai didi

php - 在分号后插入空格,除非它是 HTML 实体的一部分

转载 作者:搜寻专家 更新时间:2023-10-31 21:15:22 25 4
gpt4 key购买 nike

我试图在每个分号后插入一个空格,除非分号是 HTML 实体的一部分。这里的示例很短,但我的字符串可能很长,有几个分号(或没有)。

Coca‑Cola =>     Coca‑Cola  (‑ is a non-breaking hyphen)
Beverage;Food;Music => Beverage; Food; Music

我发现以下正则表达式可以处理短字符串:

<?php
$a[] = 'Coca&#8209;Cola';
$a[] = 'Beverage;Food;Music';
$regexp = '/(?:&#?\w+;|[^;])+/';
foreach ($a as $str) {
echo ltrim(preg_replace($regexp, ' $0', $str)).'<br>';
}
?>

但是,如果字符串有点大,上面的 preg_replace 实际上会使我的 Apache 服务器崩溃(与服务器的连接在页面加载时被重置。)将以下内容添加到上面的示例代码中:

$a[] = 'Lorem ipsum dolor sit amet, consectetur adipiscing elit. '.
'In blandit metus arcu. Fusce eu orci nulla, in interdum risus. '.
'Maecenas ut velit turpis, eu pretium libero. Integer molestie '.
'faucibus magna sagittis posuere. Morbi volutpat luctus turpis, '.
'in pretium augue pellentesque quis. Cras tempor, sem suscipit '.
'dapibus lacinia, dolor sapien ultrices est, eget laoreet nibh '.
'ligula at massa. Cum sociis natoque penatibus et magnis dis '.
'parturient montes, nascetur ridiculus mus. Phasellus nulla '.
'dolor, placerat non sem. Proin tempor tempus erat, facilisis '.
'euismod lectus pharetra vel. Etiam faucibus, lectus a '.
'scelerisque dignissim, odio turpis commodo massa, vitae '.
'tincidunt ante sapien non neque. Proin eleifend, lacus et '.
'luctus pellentesque;odio felis.';

上面的代码(带有大字符串)使 Apache 崩溃,但如果我在命令行上运行 PHP 则可以正常工作。

在我的程序的其他地方,我在更大的字符串上使用 preg_replace 没有问题,所以我猜测正则表达式中的某些东西压倒了 PHP/Apache。

那么,有没有一种方法可以“修复”正则表达式,使其在 Apache 上使用大字符串工作,或者是否有另一种更安全的方法来做到这一点?

如果有任何帮助,我在 Windows XP SP3 上使用 PHP 5.2.17 和 Apache 2.0.64。 (不幸的是,目前无法升级 PHP 或 Apache。)

最佳答案

我会建议这个匹配表达式:

\b(?<!&)(?<!&#)\w+;

...匹配一系列字符(字母、数字和下划线),其前面没有 & 符号(或 & 符号后跟哈希符号)但后面有分号。

它分解为:

\b          # assert that this is a word boundary
(?<! # look behind and assert that you cannot match
& # an ampersand
) # end lookbehind
(?<! # look behind and assert that you cannot match
&# # an ampersand followed by a hash symbol
) # end lookbehind
\w+ # match one or more word characters
; # match a semicolon

替换为字符串'$0'

如果这对你不起作用,请告诉我

当然,你也可以使用 [a-zA-Z0-9] 而不是 \w 来避免匹配分号,但我不认为永远不会给你带来任何麻烦

此外,您可能还需要转义散列符号(因为这是正则表达式注释符号),如下所示:

\b(?<!&)(?<!&\#)\w+;

编辑 不确定,但我猜测将单词边界放在开头会使它更有效率(因此不太可能使您的服务器崩溃),所以我改变了在表达式和分解中...

EDIT 2 ... 以及有关您的表达式可能导致服务器崩溃的原因的更多信息:Catastrophic Backtracking -- 我认为这适用(?)嗯……不过还是不错的信息

FINAL EDIT 如果您只想在分号后添加一个空格如果后面没有空格(即在 的情况下添加一个pellentesque;odio 但在 pellentesque; odio 的情况下不是),然后在末尾添加额外的前瞻性,这将防止添加额外的不必要的空格:

\b(?<!&)(?<!&\#)\w+;(?!\s)

关于php - 在分号后插入空格,除非它是 HTML 实体的一部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10018897/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com