- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试为表示文件路径的字符串编写解析器,可选地后跟冒号(:
)和表示访问标志的字符串(例如r+
或 w
)。文件名本身可以包含冒号,例如 foo:bar.txt
,因此分隔访问标志的冒号应该是字符串中的最后一个冒号。
这是我迄今为止的实现:
import re
def parse(string):
SCHEME = r"file://" # File prefix
PATH_PATTERN = r"(?P<path>.+)" # One or more of any character
FLAGS_PATTERN = r"(?P<flags>.+)" # The letters r, w, a, b, a '+' symbol, or any digit
# FILE_RESOURCE_PATTERN = SCHEME + PATH_PATTERN + r":" + FLAGS_PATTERN + r"$" # This makes the first test pass, but the second one fail
FILE_RESOURCE_PATTERN = SCHEME + PATH_PATTERN + optional(r":" + FLAGS_PATTERN) + r"$" # This makes the second test pass, but the first one fail
tokens = re.match(FILE_RESOURCE_PATTERN, string).groupdict()
return tokens['path'], tokens['flags']
def optional(re):
'''Encloses the given regular expression in a group which matches 0 or 1 repetitions.'''
return '({})?'.format(re)
我尝试了以下测试:
import pytest
def test_parse_file_with_colon_in_file_name():
assert parse("file://foo:bar.txt:r+") == ("foo:bar.txt", "r+")
def test_parse_file_without_acesss_flags():
assert parse("file://foobar.txt") == ("foobar.txt", None)
if __name__ == "__main__":
pytest.main([__file__])
问题是,通过使用或不使用可选
,我可以使一个或另一个测试通过,但不能同时通过。如果我将 r":"+ FLAGS_PATTERN
设置为可选,则前面的正则表达式将消耗整个字符串。
如何调整 parse
方法以使两个测试都通过?
最佳答案
你应该构建像这样的正则表达式
^file://(?P<path>.+?)(:(?P<flags>[^:]+))?$
请参阅regex demo .
在您的代码中,不需要 ^
anchor ,因为您使用 re.match
将匹配锚定在字符串的开头。 path
组延迟匹配任何 1+ 个字符(因此,可以与第 2 组匹配的所有文本都将出现在第二次捕获中),直到第一次出现 :
后跟 1+ 个除 :
之外的字符(如果存在),然后测试字符串位置的结尾。感谢 $
anchor ,如果第二个可选组不匹配,第一个组将匹配整个字符串。
使用以下修复:
PATH_PATTERN = r"(?P<path>.+?)" # One or more of any character
FLAGS_PATTERN = r"(?P<flags>[^:]+)" # The letters r, w, a, b, a '+' symbol, or any digit
请参阅online Python demo .
关于python - 如何制作正则表达式 'greedy but optional',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43089832/
对于贪婪方法无法给出最优值的任何给定问题,我们可以找到一个反例来反驳该方法。 但是,是否有可能证明对于给定的问题,一般情况下任何贪心方法都不起作用。 最佳答案 我能想到的最普遍的答案是任何贪心算法都会
我想用具有不同搜索算法的 python 实现传教士和食人者。其中一种算法是 Greedy 或 A*,需要启发式函数才能工作。 我想不出任何正确的启发式方法。你能建议一个启发式吗? 最佳答案 传教士和食
因此,即使更好的解决方案即将出现,急切搜索也是您采用初始解决方案的地方...... 急切搜索的反义词是什么?我所有的谷歌搜索结果都让我引用了 Paul Revere 的骑行。在这些困惑和不确定的时代,
我被一种模式难倒了,它不断返回第一个之后的所有匹配项(它是“贪婪的”)我的模式:ISS/(?\w\S*)文本有两个匹配项: ISS/2018-03-02 国际空间站/2005-03-09 我只希望 C
我想要一个差异输出 - old line 1 + new line 1 - old line 2 + new line 2 代替 - old line 1 - old line 2 + new lin
我正在阅读明确的 ANTLR4 引用资料,并对其中一个示例(第 76 页)有疑问: STRING: '"' (ESC|.)*? '"'; fragment ESC: '\\"' | '\\\\' ;
我正在尝试使用简单的正则表达式来匹配模式,但得到了一些意想不到的结果...... 搜索模式和结果如下所示, public class Test { public static void mai
我正在尝试为表示文件路径的字符串编写解析器,可选地后跟冒号(:)和表示访问标志的字符串(例如r+ 或 w)。文件名本身可以包含冒号,例如 foo:bar.txt,因此分隔访问标志的冒号应该是字符串中的
我有以下适用于 Jupyter iPython 笔记本的“神奇”命令: %config IPCompleter.greedy=True 但是我不知道可以将其放入配置文件中,以便默认在每个新打开的笔记本
假设这是我们的文本: text = 'After 1992 , the winter and summer Olympics will be held two years apart , with t
我需要一个简单的换行算法,所以我求助于维基百科: http://en.wikipedia.org/wiki/Line_wrap_and_word_wrap#Minimum_number_of_line
问题是让 n 美分随 25 美分、10 美分、5 美分和 1 美分变化,并使用最少的硬币总数。在四种面额分别为 25 美分、10 美分、5 美分和 1 美分的特殊情况下,我们有 c1 = 25、c2
我正在阅读 tutorial关于“贪婪”算法,但我很难发现它们解决了真正的“顶级编码器”问题。 如果我知道给定的问题可以用“贪心”算法解决,那么编写解决方案的代码就很容易了。然而,如果我没有被告知这个
考虑以下字符串: 1: cccbbb 2: cccaaabbb 我想结束这样的比赛: 1: Array ( [1] => [2] => bbb ) 2: Array ( [1]
我在表格中有一行,其中有 3 个单元格,其值为 A、B 和 C,表格是屏幕的整个宽度,这对于所有 3 个来说绰绰有余。现在,当他们显示,所有单元格都占了房间的 1/3,但这不是我想要的。我希望第二个和
).)* 匹配我所有的表格标签。然而, ))* 才不是。如果我尝试用文字写出表达式,第二个似乎是有道理的,但我无法理解第一个。 有什么不同 ? 作为引用,我从这里得到了“Tempered Greedy
这两个术语是什么?可以理解吗? 最佳答案 贪婪会尽可能多地消耗。来自 http://www.regular-expressions.info/repeat.html我们看到尝试将 HTML 标签与
这两个术语是什么?可以理解吗? 最佳答案 贪婪会尽可能多地消耗。来自 http://www.regular-expressions.info/repeat.html我们看到尝试将 HTML 标签与
我正在使用各种算法实现强盗问题。我面临的问题是 epsilon-greedy 在 5 个臂和 2000 年的 epsilon 值为 0.95 时比 UCB 表现更好。我知道本地平线与许多武器相当时,e
我目前正在尝试制作一个匹配 URL 参数并提取它们的正则表达式。 例如,如果我得到以下参数字符串?param1=someValue¶m2=someOtherValue,std::regex_m
我是一名优秀的程序员,十分优秀!