gpt4 book ai didi

javascript - 正则表达式 : Using a negative look ahead for the nonsupported negative look behind and capturing the look behind characters upon split

转载 作者:行者123 更新时间:2023-11-29 10:56:43 30 4
gpt4 key购买 nike

我又在与正则表达式作斗争了。我一直在尝试添加使用转义字符来转义自定义标记,例如 <1><57></1></57> .在乔治的帮助下,here , 在尝试转义方法之前,以下表达式会产生所需的结果。

('This is a <21>test</21> again.').split(/(<\/?(?:[1-9]|[1-4][0-9]|5[0-7])>)/);

生成 'This is a ', '<21>', 'test', '</21>', ' again.'

This问题有一个建议,即使用负面展望和 OR 来近似不受支持的负面展望。我针对我认为更简单的问题修改了该示例;然而,我又被难住了。

('This is a <21>test</21> again.').split(/(?:(?!\\).|^)(<\/?(?:[1-9]|[1-4][0-9]|5[0-7])>)/) );

生成 'This is a', '<21>', 'tes', '</21>', ' again.'因此,它不包括 <21> 之前的字符或 </21>当不是 \ .我明白了为什么使用了 ?:对于非捕获。

但是,如果它被移除,那么:

('This is a <21>test</21> again.').split(/((?!\\).|^)(<\/?(?:[1-9]|[1-4][0-9]|5[0-7])>)/) );

生成 'This is a', ' ', '<21>', 'tes', 't', '</21>', ' again.'并且前一个字符生成一个单独的拆分。

除了这个问题,当前一个字符是 \ 时,转义会起作用。该标记不会生成字符串的拆分。

能否请您告诉我是否有办法捕获前一个字符,但将其包含在前一个字符串的文本中而不是它自己的拆分?并且可能仅在 \ 时排除它?

当字符串为'This is a <21>test</21> again.'时,期望的结果是 'This is a ', '<21>', 'test', '</21>', ' again.'

当它是 'This is a \<21>test</21> again.' 时,期望的结果是 'This is a <21>', 'test', '</21>', ' again.'

谢谢。

添加在最近学习了如何在 replace 中使用内联函数作为参数之后在 this 处使用正则表达式进行操作MDN 文档,我开始怀疑是否可以在这里做类似的事情。我对衡量性能一无所知,但下面 Revo 提供的正则表达式的复杂性以及他对我关于效率的评论的回答指出,消极的看法会显着提高效率并减少 RegExp 引擎的工作量,并且此外,RegExp 对我来说是一个幕后的黑匣子之谜,这促使我尝试另一种方法。这是几行代码,但产生相同的结果并使用更短的正则表达式。它真正做的是匹配带有和不带有转义字符的标签,而不是试图排除那些使用 \ 转义的标签。 ,然后在构建数组时忽略带有转义字符的那些。下面的片段。

我不知道控制台日志中提供的时间是否表示性能',但如果是这样,在我运行的示例中,日志记录 start 之间的时间差异似乎是和 a.splita.split 之间的百分比长得多和数组的最终记录 aexec下方法。

另外,最里面if while 内的 block 声明是为了防止""当标签位于字符串的开头或结尾,或者两个标签之间没有空格时,不会被保存在数组中。

如果您能提供关于为什么或为什么不使用一种方法而不是另一种方法的任何见解,或者在无法访问真正的负面观察背后的情况下引入更好的方法,我将不胜感激。谢谢。

let a, i = 0, l, p, r,
x = /\\?<\/?(?:[1-9]|[1-4]\d|5[0-7])>/g,
T = '<1>This is a <21>test<21> of \\<22>escaped and \\> </ unescaped tags.<5>';

console.log('start');

a = T.split(/((?:[^<\\]+|\\+.?|<(?!\/?(?:[1-9]|[1-4]\d|5[0-7])>))+|<\/?(?:[1-9]|[1-4]\d|5[0-7])>)/).filter(Boolean);

console.log(a);
a=[];
while ( ( r = x.exec( T ) ) !== null) {
if ( r[0].charAt(0) !== '\\' )
{
if ( r.index === 0 || r.index === p )
{
a[ i ] = r[0];
i = i + 1;
}
else
{
a[ i ] = T.substring( p, r.index );
a[ i + 1 ] = r[0];
i = i + 2;
}; // end if
p = x.lastIndex;
}; // end if
}; // next while

if ( p !== T.length ) a[i] = T.substring( p );
console.log(a)

最佳答案

您正在拆分所需的子字符串并使用捕获组将它们输出。这也可能发生在不需要的子字符串上。您匹配它们并将它们包含在捕获组中以将它们输出。正则表达式为:

(undesired-part|desired-part)

不需要的子字符串的正则表达式应该放在第一位,因为可以在其中找到所需的子字符串,即 <21>包含在 \<21> 中所以我们应该更早匹配后者。

您写下了我们想要的部分:

(undesired-part|<\/?(?:[1-9]|[1-4]\d|5[0-7])>)

那么不受欢迎的呢?在这里:

(?:[^<\\]+|\\.?|<(?!\/?(?:[1-9]|[1-4]\d|5[0-7])>))+

让我们分解一下:

  • (?:非捕获组的开始
    • [^<\\]+匹配除 < 以外的任何内容和 \
    • |或者
    • \\.?匹配转义字符
    • |或者
    • <(?!\/?(?:[1-9]|[1-4]\d|5[0-7])>)匹配<这是不希望的
  • )+ NCG 结束,尽可能重复,至少重复一次

总体来说是:

((?:[^<\\]+|\\.?|<(?!\/?(?:[1-9]|[1-4]\d|5[0-7])>))+|<\/?(?:[1-9]|[1-4]\d|5[0-7])>)

JS代码:

console.log(
'This is a \\<21>test</21> ag<ain\\.'.split(/((?:[^<\\]+|\\.?|<(?!\/?(?:[1-9]|[1-4]\d|5[0-7])>))+|<\/?(?:[1-9]|[1-4]\d|5[0-7])>)/).filter(Boolean)
);

关于javascript - 正则表达式 : Using a negative look ahead for the nonsupported negative look behind and capturing the look behind characters upon split,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55662413/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com