python - 使用 Gibbs 采样器进行基序搜索-6ren

python - 使用 Gibbs 采样器进行基序搜索

转载作者：太空狗更新时间：2023-10-30 00:16:43

28

4

我是编程和生物信息学的初学者。因此，非常感谢您的理解。我尝试使用 Gibbs 采样开发一个用于主题搜索的 python 脚本，如 Coursera 类(class)“Finding Hidden Messages in DNA”中所述。类(class)中提供的伪代码是:

GIBBSSAMPLER(Dna, k, t, N)
    randomly select k-mers Motifs = (Motif1, …, Motift) in each string
        from Dna
    BestMotifs ← Motifs
    for j ← 1 to N
        i ← Random(t)
        Profile ← profile matrix constructed from all strings in Motifs
                   except for Motifi
        Motifi ← Profile-randomly generated k-mer in the i-th sequence
        if Score(Motifs) < Score(BestMotifs)
            BestMotifs ← Motifs
    return BestMotifs

问题描述:

代码挑战:实现 GIBBSSAMPLER。

输入:整数 k、t 和 N，后跟一组字符串 Dna。输出:运行 GIBBSSAMPLER(Dna, k, t, N) 产生的字符串 BestMotifs 20 次随机启动。记得使用伪计数!

示例输入:

 8 5 100
 CGCCCCTCTCGGGGGTGTTCAGTAACCGGCCA
 GGGCGAGGTATGTGTAAGTGCCAAGGTGCCAG
 TAGTACCGAGACCGAAAGAAGTATACAGGCGT
 TAGATCAAGTTTCAGGTGCACGTCGGTGAACC
 AATCCACCAGCTCCACGTGCAATGTTGGCCTA

示例输出:

 TCTCGGGG
 CCAAGGTG
 TACAGGCG
 TTCAGGTG
 TCCACGTG

据我所知，我遵循了伪代码。这是我的代码:

def BuildProfileMatrix(dnamatrix):
    ProfileMatrix = [[1 for x in xrange(len(dnamatrix[0]))] for x in xrange(4)]
    indices = {'A':0, 'C':1, 'G': 2, 'T':3}
    for seq in dnamatrix:
    for i in xrange(len(dnamatrix[0])):            
        ProfileMatrix[indices[seq[i]]][i] += 1
    ProbMatrix = [[float(x)/sum(zip(*ProfileMatrix)[0]) for x in y] for y in ProfileMatrix]
    return ProbMatrix
def ProfileRandomGenerator(profile, dna, k, i):
    indices = {'A':0, 'C':1, 'G': 2, 'T':3}
    score_list = []
    for x in xrange(len(dna[i]) - k + 1):
        probability = 1
        window = dna[i][x : k + x]
    for y in xrange(k):
        probability *= profile[indices[window[y]]][y]
    score_list.append(probability)
    rnd = uniform(0, sum(score_list))
    current = 0
    for z, bias in enumerate(score_list):
        current += bias
        if rnd <= current:
            return dna[i][z : k + z]
def score(motifs):
    ProfileMatrix = [[0 for x in xrange(len(motifs[0]))] for x in xrange(4)]
    indices = {'A':0, 'C':1, 'G': 2, 'T':3}
    for seq in motifs:
        for i in xrange(len(motifs[0])):            
            ProfileMatrix[indices[seq[i]]][i] += 1
    score = len(motifs)*len(motifs[0]) - sum([max(x) for x in zip(*ProfileMatrix)])
    return score
from random import randint, uniform    
def GibbsSampler(k, t, N):
     dna = ['CGCCCCTCTCGGGGGTGTTCAGTAACCGGCCA',
    'GGGCGAGGTATGTGTAAGTGCCAAGGTGCCAG',
    'TAGTACCGAGACCGAAAGAAGTATACAGGCGT',
    'TAGATCAAGTTTCAGGTGCACGTCGGTGAACC',
    'AATCCACCAGCTCCACGTGCAATGTTGGCCTA']
    Motifs = []
    for i in [randint(0, len(dna[0])-k) for x in range(len(dna))]:
        j = 0
        kmer = dna[j][i : k+i]
        j += 1
        Motifs.append(kmer)
    BestMotifs = []
    s_best = float('inf')
    for i in xrange(N):
        x = randint(0, t-1)
    Motifs.pop(x)
    profile = BuildProfileMatrix(Motifs)
    Motif = ProfileRandomGenerator(profile, dna, k, x)
    Motifs.append(Motif)
    s_motifs = score(Motifs)
    if s_motifs < s_best:
        s_best = s_motifs
        BestMotifs = Motifs
return [s_best, BestMotifs]

k, t, N =8, 5, 100            
best_motifs = [float('inf'), None]

# Repeat the Gibbs sampler search 20 times.
for repeat in xrange(20):
    current_motifs = GibbsSampler(k, t, N)
    if current_motifs[0] < best_motifs[0]:
        best_motifs = current_motifs
# Print and save the answer.
print '\n'.join(best_motifs[1])

不幸的是，我的代码从未给出与已解决示例相同的输出。此外，在尝试调试代码时，我发现我得到了定义图案之间不匹配的奇怪分数。但是，当我尝试单独运行评分函数时，它运行良好。

每次我运行脚本时，输出都会发生变化，但无论如何这里是代码中输入的输出之一的示例:

我的代码的示例输出

TATGTGTA
TATGTGTA
TATGTGTA
GGTGTTCA
TATACAGG

你能帮我调试这段代码吗？!!我花了一整天时间试图找出问题所在，虽然我知道这可能是我犯的一些愚蠢的错误，但我的眼睛却没有注意到。

谢谢大家!!

最佳答案

终于，我发现我的代码出了什么问题!它在第 54 行:

Motifs.append(Motif)

在随机删除其中一个图案之后，然后根据这些图案构建配置文件，然后根据该配置文件随机选择一个新图案，我应该在删除之前将所选图案添加到相同位置，而不是附加到末尾基序列表。

现在，正确的代码是:

Motifs.insert(x, Motif)

新代码按预期工作。

关于python - 使用 Gibbs 采样器进行基序搜索，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35676617/

28

4

0

文章推荐： python - 将输入参数传递给 Theano 函数的正确方法是什么？

文章推荐： c# - 如何获取命名空间中的所有控件？

文章推荐： c# - 为什么不使用 == 运算符(为具体类型定义)？

文章推荐： c# - AutoMapper - 条件映射

audio - 音频单元乐器+采样器
现在，我正在从事创建音频单元乐器的项目，该乐器既提供基本波形又提供音频采样器。我在如何实现音频单元乐器库以支持音频文件浏览方面存在问题，也想知道支持这种情况的音频单元SDK来制作采样器。采样器可以与
贝叶斯回归的 R Gibbs 采样器
我正在尝试为 R 中的贝叶斯回归模型编写 Gibbs 采样器，但在运行代码时遇到问题。 sigma.update 函数中的测试版似乎发生了一些事情。当我运行代码时，我收到一条错误消息“x %*% be
glsl - 在统一分支内有一个非绑定(bind)采样器
假设我有像素着色器，有时需要从一个采样器读取，有时需要从两个不同的采样器读取，具体取决于统一变量 layout (set = 0, binding = 0) uniform UBO { ....
javascript - Jmeter - WebDriver 采样器
我需要等待一个元素从屏幕上消失。我知道如何等待元素可见，我使用了以下代码: wait.until(conditions.presenceOfElementLocated(pkg.By.xpath("m
ios - 时间分析器与 CPU 采样器？
在 Instruments 中，Time Profiler 和 CPU Sampler 有什么区别？我有兴趣了解每个工具如何收集数据，以及每个工具旨在解决什么类型的问题。最佳答案 Instrume
JMeter 中的 TCP 采样器
我在 JMeter 中使用 TCP 采样器。发送的数据是十六进制格式(45 00 0F CD 04 39 40 00)，JMeter 无法处理数据。在执行时，JMeter 抛出读取异常。获得的读取异
imap - 缺少 CR - TCP 采样器
我正在尝试使用 TCP Sampler 在 IMAP4 之上创建自动测试。我没有使用邮件阅读器采样器，因为我需要允许注入(inject)纯 IMAP4 命令。我的 IMAP4 服务器(与任何 IM
c++ - Vulkan 中的 YCbCr 采样器
我一直在尝试在 Vulkan 中对 YCbCr 图像进行采样，但我一直得到不正确的结果，我希望有人能够发现我的错误。我有一个 NV12 YCbCr 图像，我想将它渲染到两个三角形上，形成一个四边形。
javascript - JMeter - WebDriver 采样器 - waitForPopUp
我正在尝试制定一个类似的命令以在 jmeter webdriver 采样器 (JavaScript) 中使用如何执行 waitForPopUp 命令。必须有办法。我有一些可以等待元素的东西，但我无法为
python - PyMC3，NUTS 采样器，这里发生了什么？
有人可以向我指出可以解释我所看到的内容的文档吗？ Jupyter notebook 中的粉红色内容让我觉得有些不对劲。使用 PyMC3(顺便说一句，这是类练习，我不知道自己在做什么)。我输入了数字
JMeter - 在 Beanshell 监听器中检测 TransactionController 采样器
是否有办法在 BeanShell 监听器脚本中确定样本结果/事件是否在事务 Controller 下？我知道您可以使用 sampleEvent.isTransactionSampleEvent()
swift - Metal 计算内核中的 Mipmap 采样器(不是顶点或片段着色器)
我有一个源纹理 (480x480)，它是在将 mipmapped 设置为 true 的情况下创建的(错误检查已删除到这篇文章)，以及一个目标纹理 (100x100): // source textur
java - 当 HTTP 请求采样器失败时运行的 JMeter Beanshell 采样器
我需要一个仅在特定 HTTP 请求采样器失败时运行的 Beanshell 采样器。我想要这个，这样当测试执行期间发生此故障时，我可以将某些变量写入终端控制台。我知道我可以在失败时将http响应保存到
json - 杰米特。具有 json 中的随机数和字符串集合元素的 Http 采样器
我是 Jmeter 的新手，我的 http 请求正文如下: { "List":{ "ListAPPInfo":[ { "first_time
c++ - 用于片段着色器的 OpenGL GLSL 绑定(bind)采样器
我希望在 2D OpenGL 应用程序上实现着色器。我的计划是将场景渲染到帧缓冲区对象，然后使用着色器将该帧缓冲区对象渲染到屏幕。这是场景，我已将其绘制到帧缓冲区对象，然后从那里绘制到屏幕。使用箭头
http - JMeter:为单个线程组中的每个用户使用多个 CSV 文件和多个 HTTP 采样器
以下是我想在 JMeter 中运行的场景:我有一个包含 100 个用户 ID 和密码的 CSV 文件 (file1.csv)。我创建了一个包含 100 个用户的线程组。我希望每个用户从 file1.c
jmeter - 如何使用 JMeter 使用 BeanShell 预处理器将数据传递给 BeanShell 采样器？
我需要读取一次文件并在采样器中进一步处理其结果。我的策略是ThreadGroup--> BeanShell Preprocessor + BeanShell Sampler 我的预处理器应该为整个线程
java - 以编程方式将 POST 二进制内容设置为 Jmeter 中的 HTTP 采样器
我正在编写一个向时间戳机构发送时间戳请求的负载测试。这是一个标准协议(protocol)，在 rfc3161 中进行了描述。这需要执行 POST，发送一个小的 ASN1 对象，即二进制对象。我正在
java - beanshell 采样器，我想从 jmeter 访问 java 代码
我在jmeter中遇到了以下错误。响应代码:500响应消息:org.apache.jorphan.util.JMeterException:调用 bsh 方法时出错:eval 在文件中:内联求值'
javascript - JMeter - 在 JSR223/BeanShell 采样器中调用 HTTP 采样器
在 SoapUI 中，我能够使用 JavaScript 执行测试步骤和 http 请求，以允许更多动态测试。在遇到一些问题后，我转向了 JMETER。在搜索了其他问题和 Jmeter 文档之后，我找

首页

博学

6Ren·AI

商城

python - 使用 Gibbs 采样器进行基序搜索