python - 在滑动窗口中寻找 k-mers-6ren

python - 在滑动窗口中寻找 k-mers

转载作者：太空狗更新时间：2023-10-30 00:02:45

24

4

我正在努力解决这个生物信息学问题:https://stepic.org/lesson/An-Explosion-of-Hidden-Messages-4/step/1?course=Bioinformatics-Algorithms-2&unit=8

具体问题在上面链接的第5个窗口，问题是:大肠杆菌基因组中有多少不同的9-mers form (500,3)-clumps？ (换句话说，不要多次计算一个 9 聚体。)

我的代码如下。这是错误的，我很想解释为什么，以及如何改进它(显然 O 效率很糟糕，但我几天前开始编写 Python...)非常感谢!

genome = '' #insert e. Coli genome here
k = 4 #length of k-mer
L = 50 #size of sliding window
t = 3 #k-mer appears t times
counter = 0
Count = []


for i in range(0,len(genome)-L): #slide window down the genome
    pattern = genome[i:i+k] #given this k-mer
    for j in range(i,i+L): #calculate k-mer frequency in window of len(L)
        if genome[j:j+k] == pattern:
            counter = counter + 1
    Count.append(counter)
    counter = 0 #IMPORTANT: reset counter after each i

Clump = []
for i in range(0,len(Count)):
    if Count[i] == t: #figure out the window that has k-mers of frequency t
        Clump.append(i)

Output = []
for i in range(0,len(Clump)):
    Output.append(genome[Clump[i]:Clump[i]+k])
print " ".join(list(set(Output))) #remove duplicates if a particular k-mer is found more than once
print len(Output)
print len(list(set(Output))) #total number of Clump(k,L,t)

最佳答案

有趣的问题。 I've put up an implementation with a few tests on github here .请继续阅读以获取一些解释。

ben@nixbox:~/bin$ time python kmers.py ../E-coli.txt 9 500 3
(500, 3)-clumps of 9-mers found in that file: 1904

real    0m15.510s
user    0m14.241s
sys     0m0.956s

这里的这个问题(在大数据中很常见)实际上归结为选择正确的数据结构，并进行一些时间/空间权衡。如果你选择正确，你可以在时间上与你的基因组长度成线性关系，在空间上与你的滑动窗口长度成线性关系。但我已经超前了。让我们直观地解释一下这个问题(主要是为了我能够理解它:-))。

cats on the internet

在此窗口中有一个 (20,3)- 3 聚体团:“CAT”。还有一些其他的(其中一个是“AAA”)，但这个例子说明了 k、L 和 t 正在做什么。

现在，我们来谈谈算法。让我们进一步简化问题，以便我们可以想象我们将如何解析和存储它:让我们看一个简单的 (5,3)-3 聚体团。

5-3 clump

括号表示我们这里宽度为 5 的滑动窗口。我们可以在我们的窗口中看到我们的 3 聚体分解为 ATA、TAA 和 AAA。当我们将窗口向右滑动一个时，ATA 退出，我们获得第二个 AAA。当我们再次向右滑动窗口时，现在 TAA 退出，我们获得了第三个 AAA - 我们找到了 AAA 的 (5,3) block AAAs.

显然，这是微不足道的，但对于弄清楚我们如何处理更大的团 block 很有用——重要的是，当我们移动窗口时，我们不会丢弃整个先前窗口的数据；我们只是丢弃第一个 k-mer 并将新的添加到窗口的末尾。下一个见解是我们可以使用哈希支持结构(在 python 中，dicts)在我们的窗口内对 k-mers 进行计数。这消除了对我们的数据结构进行线性搜索以确定其中有多少特定 k-mer 的需要。

因此，这两个要求 - 记住插入顺序和哈希支持的数据结构 - 意味着我们应该创建一个自定义类来维护 list - 或者更好，deque - 窗口中的每个 kmer，以及一个 dict - 或者更好，Counter - 跟踪双端队列中每个 kmer 的频率。请注意 OrderedDict接近于为你完成所有这些，但不完全是；如果它的计数大于 1，则弹出最老的 kmer 是错误的。

您真正应该用来简化代码的另一件事是适当的 sliding window iterator .

综合起来:

def get_clumps(genome, k, L, t):
    kmers = KmerSequence(L-k, t)

    for kmer in sliding_window(genome, k):
        kmers.add(kmer)

    return kmers.clumps

class KmerSequence(object):
    __slots__ = ['order', 'counts', 'limit', 'clumps', 't']

    def __init__(self, limit, threshold):
        self.order = deque()
        self.counts = Counter()
        self.limit = limit
        self.clumps = set()
        self.t = threshold

    def add(self, kmer):
        if len(self.order) > self.limit:
            self._remove_oldest()
        self._add_one(kmer)

    def _add_one(self,kmer):
        self.order.append(kmer)
        new_count = self.counts[kmer] + 1
        self.counts[kmer] = new_count

        if new_count == self.t:
            self.clumps.add(kmer)

    def _remove_oldest(self):
        self.counts[self.order.popleft()] -= 1

用法:

with open(genomefile) as f:
    genome = f.read()

k = 9
L = 500
t = 3

clumps = get_clumps(genome, k,L,t)

如顶部所述，完整的代码 - 包括一些辅助功能和当脚本直接作为 __main__ 运行时的处理 - 在 github here 上.随意 fork 等。

关于python - 在滑动窗口中寻找 k-mers，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26621695/

24

4

0

文章推荐： c# - 可从链式任务中观察到

文章推荐： c# - 进行字符串连接时的性能 - 算法字符串字符串 c#

文章推荐： C# LINQ 返回计数器数组索引最大值到最小值

javascript (函数(窗口){})(窗口)
https://github.com/mattdiamond/Recorderjs/blob/master/recorder.js中的代码我不明白 JavaScript 语法，比如 (functio
ios - 在 iOS 8 中查找 TopMost 窗口/FrontMost 窗口
在 iOS 7 及更早版本中，如果我们想在应用程序中找到 topMostWindow，我们通常使用以下代码行 [[[UIApplication sharedApplication] windows]
JavaScript 窗口
我已经尝试解决这个问题很长一段时间了:我无法访问窗口的 url，因为它位于另一个域上..有一些解决方案吗？ function login() { var cb = window.ope
c# - 将ffmpeg流传递给c#窗口
是否可以将 FFMPEG 视频流传递到 C# 窗口？现在它在新窗口中作为新进程打开，我只是想将它传递给我自己的 SessionWindow。此时我像这样执行ffplay: public void E
R:窗口()函数
我有一个名为 x 的矩阵看起来像这样: pTime Close 1 1275087600 1.2268 2 1275264000 1.2264 3 1275264300 1.2
emacs - Emacs如何自动跳转到新创建的缓冲区/窗口
在编译时，发生搜索，grep搜索等，Emacs会在单独的窗口中创建一个新的缓冲区来显示结果，有没有自动跳转到那个窗口的方法？这很有用，因为我可以使用 n 和 p 而不是 M-g n 和 M-g p 移
从批处理文件启动时的 PowerShell 窗口
我有一个启动 PowerShell 脚本的批处理文件。批处理文件: START Powershell -executionpolicy RemoteSigned -noexit -file "MyS
cocoa - NSWindowController 窗口？
我有一个基于菜单栏的应用程序，单击图标时会显示一个窗口。在 Mac OS X Lion 上一切正常，但由于某种原因，在 Snow Leopard 和早期版本的 Mac OS X 上会出现错误。任何时候
带有集成标题栏和工具栏的 macOS 窗口？
在 macOS 中，如何在 Xcode 和/或 Interface Builder 中创建带有“集成标题栏和工具栏”的窗口？这是“宽标题栏”类型的窗口，已添加到 OS X 10.10 Yosemit
javascript - 为什么 this == 窗口？
在浏览器 (Chrome) 中 JavaScript: var DataModler = { Data: { Something: 'value' }, Process: functi
javascript - 关闭另一个选项卡/窗口
我有 3 个 html 页面。第 1 页链接到第 2 页，第 2 页链接到第 3 页(为了简单起见)。我希望页面 2 中的链接打开页面 3 并关闭页面 1(选项卡 1)。据我了解，您无法使用 Ja
javascript - 如何使用下拉菜单打开新框架/窗口
当点击“创建节点”按钮时，如何打开一个新的框架或窗口？我希望新框架包含一个文本字段和下拉菜单，以便用户可以选择一个选项。 Create node Search node
托管用户控件的 WPF 窗口
我有一个用户控件，用于编辑应用程序中的某些对象。我最近遇到一个实例，我想弹出一个新的对话框(窗口)来托管此用户控件。如何实例化新窗口并将需要设置的任何属性从窗口传递到用户控件？感谢您的宝贵时间。
kotlin - 具有自定义计数标准的RxJava缓冲区/窗口
我有一个Observable，它发出许多对象，我想使用window或buffer操作对这些对象进行分组。但是，我不想指定count参数来确定窗口中应包含多少个对象，而是希望能够使用自定义条件。例如，
JavaFX 防止在单击按钮时打开新阶段(窗口)
我有以下代码，它打开一个新的 JavaFX 阶段(我们称之为窗口)。 openAlertBox.setOnAction(e -> { AlertBox alert = AlertBox
ios - 如何检查当前的iOS设备是否支持多个场景/窗口？
我要添加一个“在新窗口中打开”上下文菜单项，该菜单项将以新的UIScene打开我的应用程序文档之一。当然，我只想在实际上支持多个场景的设备上显示该菜单项。目前，我只是在检查设备是否是使用旧设备的iP
macos - 我可以使用哪些命令行工具来获取每个平台上当前事件的应用程序/窗口？
我正在尝试创建一个 AIR 应用程序来记录应用程序的使用情况，使用 AIR 从系统获取信息的唯一简单方法是使用命令行工具和抓取标准输出 . 我知道像这样的工具顶部和 ps 对于 OS X，但它们
python - 如何打印一个turtle()窗口？
所以我有这个简单的 turtle 螺旋制作器，我想知道是否有一种方法可以打印出由该程序创建的我的设计副本。代码: import turtle x= float(input("Angle: ")) y
c# - 将快速文本输入发送到另一个进程(窗口)
我正在编写一个 C# WPF 程序，它将文本消息发送到另一个程序的窗口。我有一个宏程序作为我的键盘驱动程序 (Logitech g15) 的一部分，它已经这样做了，尽管它不会将击键直接发送到进程，而是
C 窗口 sendto()
我尝试使用以下代码通过 UDP 发送，但得到了奇怪的结果。 if((sendto(newSocket, sendBuf, totalLength, 0, (SOCKADDR *)&sendAd

首页

博学

6Ren·AI

商城

python - 在滑动窗口中寻找 k-mers