python - 匹配字符串中不是特定字符的连续片段的部分-6ren

python - 匹配字符串中不是特定字符的连续片段的部分

转载作者：太空宇宙更新时间：2023-11-03 15:08:03

26

4

我有一个简单的函数，它从一个字符串中生成至少有 gapSize 个连续 N 的所有片段:

def get_gap_coordinates(sequence, gapSize=25):
    gapPattern = "N{"+str(gapSize)+",}"
    p = re.compile(gapPattern)
    m = p.finditer(sequence)
    for gap in m:
        start,stop = gap.span()
        yield(start,stop)

现在我想要一个功能完全相反:匹配所有不是至少 gapSize N 的连续延伸的字符。这些延伸可能出现在字符串中的任何位置(开头、中间和结尾)，具有任何给定的数字。

我已经研究了 lookarounds 并尝试了

(?!N{25,}).*

但这并不能满足我的需要。非常感谢任何帮助!

编辑:例如:一个序列 NNNNNNACTGACGTNNNACTGACNNNNNN 应该匹配 ACTGACGTNNNACTGAC gapSize=5 和 ACTGACGT & ACTGAC gapSize = 3。

最佳答案

所以这是一个纯正则表达式解决方案，它似乎是您想要的，但我想知道是否真的有更好的方法来实现它。当我想到它们时，我会添加替代方案。我使用了几种在线正则表达式工具并在 shell 中进行了尝试。

One of the tools有一个很好的正则表达式图形和生成 SO 答案的工具代码:正则表达式(间隙为 10)是:

^.*?(?=N{10})|(?<=N{10})[^N].*?(?=N{10})|(?<=N{10})[^N].*?$

Regular expression visualization

用法:

s = 'NAANANNNNNNNNNNBBBBNNNCCNNNNNNNNNNDDDDN'
def foo(s, gapSize = 25):
    '''yields non-gap items (re.match objects) in s or
       if gaps are not present raises StopIteration immediately
    '''
    # beginning of string and followed by a 'gap' OR
    # preceded a 'gap' and followed by a 'gap' OR
    # preceded a 'gap' and followed by end of string
    pattern = r'^.*?(?=N{{{}}})|(?<=N{{{}}})[^N].*?(?=N{{{}}})|(?<=N{{{}}})[^N].*?$'
    pattern = pattern.format(gapSize, gapSize, gapSize, gapSize)
    for match in re.finditer(pattern, s):
        #yield match.span()
        yield match

for match in foo(s, 10):
    print match.span(), match.group()

'''
>>> 
(0, 5) NAANA
(15, 24) BBBBNNNCC
(34, 39) DDDDN
>>>
'''

因此，如果您稍微考虑一下，就会发现间隙的开始是非间隙 的结束，反之亦然。因此，使用一个简单的正则表达式:遍历间隙，向循环添加逻辑以跟踪非间隙 跨度，并产生 跨度。 (我的占位符变量名可能会得到改进)

s = 'NAANANNNNNNNNNNBBBBNNNCCNNNNNNNNNNDDDDN'
def bar(s, n):
    '''Yields the span of non-gap items in s or
       immediately raises StopIteration if gaps are not present.
    '''
    gap = r'N{{{},}}'.format(n)
    # initialize the placeholders
    previous_start = 0
    end = len(s)
    for match in re.finditer(gap, s):
        start, end = match.span()
        if start == 0:
            previous_start = end
            continue
        end = start
        yield previous_start, end
        previous_start = match.end()
    if end != len(s):
        yield previous_start, len(s)

用法

for start, end in bar(s, 4):
    print (start, end), s[start:end]

'''
>>>
(0, 5) NAANA
(15, 24) BBBBNNNCC
(34, 39) DDDDN
>>>
'''

关于python - 匹配字符串中不是特定字符的连续片段的部分，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30430783/

26

4

0

文章推荐： python - 如何提前时钟并完成所有事件

文章推荐： python - F() 表达式与 Django 的奇怪行为

typescript - A 部分部分 io-ts
我在使用 io-ts 时遇到一些问题。我发现它确实缺乏文档，我取得的大部分进展都是通过 GitHub issues 取得的。不，我不明白 HKT，所以没有帮助。基本上，我在其他地方创建一个类型，ty
java - 匹配完整文件正则表达式中的 A 部分，但不匹配 B 部分
我必须创建一个正则表达式来搜索整个文件，以找到与 Java XML 解析器的第一部分(但不是第二部分)的匹配项。这将用于防止某些 XXE 攻击。不幸的是，它确实必须是单个正则表达式，并且它确实需要搜索
c# - 部分/部分中的 asp.net mvs 部分？
我有一些简单的 Shared/_Header.cshtml 文件中的内容。 My Shared/_Layout.cshtml 通过调用插入该代码 @Html.Partial("_Header") 目前
java - Selenium 只执行循环的 if != null 部分，不运行循环的 "else if null "部分
我有一个 if-else 语句，其中: 条件 1:ID 匹配并且自动填充某些字段。然后 if 语句只填充其余字段条件 2:ID 不匹配，所有字段均为空白。 ELSE 语句将它们全部填充当我使条件
javascript - 无法在 JSFIDDLE 中使用滚动魔法(第 1 部分，共 2 部分)
我正在开发一个单页滚动网站。我正在尝试实现 ScrollMagic 并固定第一部分，以便网站的其余部分滚动到固定部分的顶部。我尝试创建一个 jsfiddle 来显示问题，但我似乎无法让 jsfiddl
javascript - 既然有

首页

博学

6Ren·AI

商城

python - 匹配字符串中不是特定字符的连续片段的部分