gpt4 book ai didi

regex - Emacs,使用 replace-regexp-in-string 来匹配两个正则表达式

转载 作者:行者123 更新时间:2023-12-01 10:38:45 26 4
gpt4 key购买 nike

我正在尝试使用 replace-regexp-in-string 替换字符串的两个部分,但我一次只能让一个部分工作。这是一个示例,我想从字符串的开头删除 # 和空格,从字符串的末尾删除换行符。当我将两个调用组合成一个表达式时,我做错了什么?

;; Test string
(setq inputStr "## Header Stuff
")

;; This doesnt trim the newline
(setq header
(replace-regexp-in-string "^[#\s]*\\|\n$" "" inputStr) )

;; Each match done separately works though
(setq header
(replace-regexp-in-string "^[#\s]*" "" inputStr) )
(setq header
(replace-regexp-in-string "\n$" "" header) )

header
"Header Stuff"

更新:问题似乎出在第一个表达式上,例如,它将换行符和 "S" 替换为 "X"(replace-正则表达式字符串 "S\\|\n$""X"inputStr).

最佳答案

看起来 replace-regexp-in-string 对匹配空字符串的正则表达式有一些意想不到的行为。以下正则表达式的作用符合您的预期(请注意 + 量词代替了 *):

(let ((input-string "## Header Stuff
"))
(replace-regexp-in-string "\\`[#\s]+\\|\n*\\'" "" input-string))

原因在于replace-regexp-in-string的内部实现,可以使用M-x find-function查找。在伪代码中,它大致执行以下操作:

给定一个regexp、一个replacement和一个string:

  1. l设置为字符串的长度,将start设置为0。创建一个名为 matches 的空堆栈来累积新字符串的片段。

  2. 只要 start 小于 l 并且 regexp 匹配 string 中的某处,就执行以下内容:

    1. 提取 string 中与正则表达式匹配的部分,并将其命名为 str

    2. regexp 替换为 replacement在较短的字符串 str 中(这很重要)

    3. 将新字符串的以下两个片段压入匹配堆栈:

      • string未匹配的初始部分,从start到匹配开始

      • 子字符串 str,其中 regexp 的匹配项现在已替换为 replacement

    4. start设置为匹配部分的末尾并重复。

  3. 最后,将matches栈中的字符串片段倒序拼接,返回结果。

原始正则表达式的问题发生在循环的第 (3) 步。即使正则表达式正确匹配完整字符串 "## Header stuff\n" 末尾的换行符,当它第二次与单字符字符串匹配时 "\n ",备选方案的第一个分支——匹配一个空字符串——优先于第二个分支,它将空字符串替换为空字符串,无法删除尾随的换行符。

这可以说是 replace-regexp-in-string 中的一个错误,但它也显示了 regexp 语义是多么棘手,尤其是当涉及空字符串时。对我来说,变通解决方案更易于阅读和理解:

(let ((input-string "## Header Stuff
"))
(setq input-string (replace-regexp-in-string "\\`[#\s]*" "" input-string))
(setq input-string (replace-regexp-in-string "\n*\\'" "" input-string))
input-string)

如果您有最新的 Emacs(预测试 24.4 或更高版本),您还可以使用内置 subr-x 包中的 string-trim-right 函数:

(let ((input-string "## Header Stuff
"))
(string-trim-right (replace-regexp-in-string "\\`[#\s]*" "" input-string)))

顺便说一句,在调查这个问题时,我很惊讶地发现 Emacs 字符串中的 \s 只是空格字符的另一种书写方式。如果你想要正则表达式行为类似于 Perl 的 \s 通配符,你可能想要使用 "\\s-" (匹配任何具有空格语法的字符),或者 “[[:space:]]”

关于regex - Emacs,使用 replace-regexp-in-string 来匹配两个正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26428756/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com