- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
以下问题专门针对生物技术应用,但可以说明其他领域类似问题的一般原则。这是一个 NP 难问题,可能与旅行商问题有关,我很好奇可以使用哪些算法来得出解决方案。
生物背景简介:蛋白质由 20 种氨基酸组成。 DNA 由 4 个碱基组成 - A、C、G、T。蛋白质的 DNA 序列决定了氨基酸的序列 - 3 个 DNA 碱基(该单位称为密码子)的每个连续序列编码一个氨基酸。一个氨基酸可以由多个密码子编码,例如缬氨酸有4种编码方式。
并非所有密码子都相同 - 其中一些密码子的处理速度比其他密码子快。此外,并非所有密码子对都相等 - 有些密码子对比其他密码子对慢。
这意味着对于一个包含 100 个氨基酸(300 个 DNA 碱基)的特定基因,有多种编码相同氨基酸序列的方法,但具有非常不同的特性,例如处理速度。
给定一个具有相应速度值的密码子对表,我们想编写一个算法,可以输出所需速度的序列,例如最快和最慢的可能序列,以及两者之间的梯度。输入是编码基因的 DNA 序列和密码子对字典及其各自的速度分数(-1 到 1)。输出是优化的 DNA 序列及其整体速度得分(可以表示为所有密码子对得分的总和)。氨基酸序列必须保持不变。
示例:如果我们有编码 3 个氨基酸的序列 AAATTTGGG,并且我们有带分数的密码子对:
AAATTT = -0.5
TTTGGG = -0.5
那么这个序列的分数可能是 -1。
现在如果我们也有成对选择,我们可以评估不同的可能性:
AAATTG = -0.7AAATTC = -0.3
TTGGGC = +0.2TTCGGA = -1.0
人们会发现基于此信息的最佳序列是 AAATTCGGA,因为它给出的总值为 -1.3。
这个问题的复杂性当然在于一个密码子对对周围所有密码子对的影响。
完整的密码子对图表将有 61*61 个条目(因为 3 个密码子停止了基因的读取)。
====
问题
我相信这是一个 NP-hard 问题并且与 TSP 有关系。我见过一种方法使用模拟退火算法。我很好奇是否有其他有见地的方法来考虑这个问题以及相应的算法和启发式方法来产生所需的输出。
如果是动态规划,什么方法合适?
此外,我们如何使用该算法创建速度分数的梯度,而不仅仅是最大值和最小值?
最佳答案
使用遗传算法,您应该能够获得达到预期目标的序列。假设你的目标是速度 x,你可以创建一个基因群——每个基因编码相同的基因,但由不同的密码子编码。然后选择、交配和变异几代,直到达到 x(或足够接近)。突变/重组的元素必须在密码子水平(与核苷酸水平相反)。要获得一系列具有不同速度的序列,请使用不同的目标 x 多次运行该算法。
关于基因 DNA 序列优化的算法选项? (涉及到TSP,动态规划),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12877798/
这个问题不太可能对任何 future 的访客有帮助;它只与一个较小的地理区域、一个特定的时间点或一个非常狭窄的情况相关,通常不适用于全世界的互联网受众。如需帮助使此问题更广泛适用,visit the
我有一个在 ab 时间内运行的算法,其中 a 和 b 都是单独的输入。 我的算法还是多项式时间复杂度算法还是nn?我认为 nn 不是多项式,但我仍然不确定。 我看到 n 算法的阶乘仍然评估为 nn 复
这个问题在这里已经有了答案: Logical operators (AND, OR) with NA, TRUE and FALSE (2 个回答) 1年前关闭。 由于“is.na(NA)”返回真,“
假设我有一个具有以下结构的 Pandas 数据框: df = pd.DataFrame(dict(a=["x", "x", "y"], b=[0, 1, 1], c=[1, 2, 2])) 我想按 a
谁能帮我处理一些相当复杂的 Django 查询? 这些是我的模型: class County(models.Model): name = models.CharField(max_length
我想从某个表中选择一行并根据另一个表对结果进行排序。 这是我的表: lang1_words: word_id - word statuses: word_id - status 在每个表中 word_
我是单元测试的新手,所以请对我宽容一些。我有一些查询 RESTful API 的模块。我发现在每个测试套件中,我都使用几行代码来启动一个简单的 ExpressJS Web 服务器,以模拟一些我可以从测
假设我有以下代码: var blinker = function(element){ if(stopped){ return; } else { var sampleMappi
我正在用 JavaScript 制作一个选择你自己的冒险风格的游戏,在本节中: evade = prompt("Go out of your way to avoid them, just in ca
我的代码: import java.awt.*; import java.awt.event.*; import javax.swing.*; public class Events1 extends
我正在使用 scipy ode 来解决钟摆问题。 from scipy import * import matplotlib.pyplot as plt from scipy.integrate im
我有一个 Google 表格,用于收集客户的注册数据。收集的数据包括学生的姓名、学生选择参加的类(class)以及信用卡号。提交后,我会收到通知。收到通知后,我会转到我的 Google 表格并从信用卡
我需要定义一个操作的两个版本,定义略有不同。它是一系列包含Nat指数的成分。 open import Data.Nat data Hom : ℕ → ℕ → Set where id : (
我正在研究游戏引擎 http://ducttape-dev.org使用 boost 作为依赖项之一。有一天,当我正在编写一个链接到我的游戏引擎的测试应用程序时,OgreProcedural 的 Ext
我正在 Android 中制作一个表达式计算器,所以我想在实际计算答案之前检查字符串是否符合有效表达式的条件。 我在 Java 中试过这个正则表达式: ^\s*([-+]?)(\d+)(?:\s*([
我有以下 postgresql 查询(为便于阅读而简化): select * from a_view where a in (select * from a_function(a_input))
我开始更好地掌握 PostgreSQL 索引,但我遇到了 OR 条件的问题,我不知道如何优化我的索引以加快查询速度。 我有 6 个条件,当单独运行时,它们的成本似乎很小。下面是修剪查询的示例,包括查询
有谁知道为什么下面的代码接受诸如123-123-1234这样的答案: [1-9]\\d{2}-[1-9]\\d{2}-\\d{4} 我想到了代码,它只接受先接受 2 个数字,再接受 2 个数字,然后再
在使用 Java 1.8u40 打开带有提示类型和附加的 StringConverter 的组合框时,我遇到了以下错误。这可以追溯到执行 FXML 的团队留下的示例字符串,与 Controller 中
在 MySQL 中,我有三个不同的数据库 - 我们将它们称为 A、B 和 C。 是否可以执行涉及所有三个数据库(A、B、C)中的表的事务? (所有数据库都在同一服务器上) 最佳答案 是的,你可以。这是
我是一名优秀的程序员,十分优秀!