gpt4 book ai didi

python - 正则表达式:匹配重复序列

转载 作者:太空宇宙 更新时间:2023-11-03 13:19:00 25 4
gpt4 key购买 nike

我正在尝试构建一个正则表达式来匹配 2 个字符的重复 DNA 序列。这些字符可以相同。

正则表达式应至少匹配 2 个字符的重复序列 3 次,以下是一些示例:

正则表达式应该匹配:

  • 阿塔塔特
  • 加加加加
  • CCCCCC

并且不应该匹配:

  • ACAC
  • ACGTACGT

到目前为止,我已经想出了以下正则表达式:

[ACGT]{2}

这会捕获恰好由两个字符(A、C、G 或 T)组成的任何序列。现在我想至少重复这个模式三次,所以我尝试了以下正则表达式:

[ACGT]{2}{3,}
([ACGT]{2}){3,}

不幸的是,第一个会引发“多次重复”错误(Python),而第二个会简单地匹配包含 A、C、G 和 T 的 6 个字符的任何序列。

有人可以帮我解决这个正则表达式吗?提前致谢。

最佳答案

您也许可以使用反向引用。

([ATGC]{2})\1{2,}

\1 是指向第一个捕获组的反向引用,将是您捕获的内容。

regex101 demo

关于python - 正则表达式:匹配重复序列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20538600/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com