>> if re.search(r'\n',r'this\nis\nit'): ... print 'fo-6ren">
gpt4 book ai didi

python "re"包, "raw"字符串的奇怪现象

转载 作者:太空狗 更新时间:2023-10-30 01:03:38 26 4
gpt4 key购买 nike

我看到了以下现象,似乎无法弄清楚,并且通过文件搜索没有找到任何东西:

如果我输入:

>>> if re.search(r'\n',r'this\nis\nit'):<br>
... print 'found it!'<br>
... else:<br>
... print "didn't find it"<br>
...

我会得到:

didn't find it!

但是,如果我输入:

>>> if re.search(r'\\n',r'this\nis\nit'):<br>
... print 'found it!'<br>
... else:<br>
... print "didn't find it"<br>
...

然后我会得到:

found it!

(第一个在 r'\n' 上只有一个反斜杠,而第二个在 r'\\n' 上有两个连续的反斜杠......即使这个解释器正在删除其中一个。)< br/>
我可以猜到发生了什么,但我不明白为什么会发生这种情况的官方机制:在第一种情况下,我需要转义两件事:正则表达式和特殊字符串。 “Raw”让我可以转义特殊字符串,但不能转义正则表达式。

但是第二个字符串中永远不会有正则表达式,因为它是要匹配的字符串。所以只需要逃一次。

然而,有些东西对我来说似乎并不一致:在第一种情况下,我应该如何确保字符REALLY ARE 是按字面意思理解的?我可以输入 rr'' 吗?还是我必须确保我两次逃避事情?同样,我如何确保变量是按字面意义获取的(或者它不是按字面意义获取的)?例如,如果我有一个变量 tmp = 'this\nis\nmy\nhome',并且我真的想找到斜线和 'n' 的字面组合,而不是换行符怎么办?

谢谢!
迈克

最佳答案

re.search(r'\n', r'this\nis\nit')

正如您所说,“第二个字符串中永远不会有正则表达式。”所以我们需要以不同的方式看待这些字符串:第一个字符串是一个正则表达式,第二个只是一个字符串。通常你的第二个字符串不会是原始的,所以任何反斜杠都是 Python 转义,而不是正则表达式转义。

所以第一个字符串由文字“\”和“n”组成。这被正则表达式解析器解释为换行符(docs:“Python 字符串文字支持的大多数标准转义符也被正则表达式解析器接受”)。因此,您的正则表达式将搜索换行符。

您的第二个字符串包含字符串“this”,后跟文字“\”和“n”。所以这个字符串不包含实际的换行符。您的正则表达式将不匹配。

至于你的第二个正则表达式:

re.search(r'\\n', r'this\nis\nit')

此版本匹配,因为您的正则表达式包含三个字符:文字“\”、另一个文字“\”和“n”。正则表达式解析器将两个斜杠解释为单个“\”字符,后跟一个“n”。因此,您的正则表达式将搜索在字符串中找到的“\”后跟“n”。但这不是很有帮助,因为它与换行无关。

很可能您想要的是从第二个字符串中删除 r,从而将其视为普通的 Python 字符串。

re.search(r'\n', 'this\nis\nit')

在这种情况下,您的正则表达式(和以前一样)正在搜索换行符。并且它找到了它,因为第二个字符串包含单词“this”,后跟一个换行符。

关于python "re"包, "raw"字符串的奇怪现象,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6500521/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com