- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章详解基于python的全局与局部序列比对的实现(DNA)由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
程序能实现什么 。
a.完成gap值的自定义输入以及两条需比对序列的输入 b.完成得分矩阵的计算及输出 c.输出序列比对结果 d.使用matplotlib对得分矩阵路径的绘制 。
1、实现步骤 。
1.用户输入步骤 。
a.输入自定义的gap值 b.输入需要比对的碱基序列1(A,T,C,G)换行表示输入完成 b.输入需要比对的碱基序列2(A,T,C,G)换行表示输入完成 。
输入(示例):
2.代码实现步骤 。
1.获取到用户输入的gap,s以及t 2.调用构建得分矩阵函数,得到得分矩阵以及方向矩阵 3.将得到的得分矩阵及方向矩阵作为参数传到回溯函数中开始回溯得到路径,路径存储使用的是全局变量,存的仍然是方向而不是坐标位置减少存储开销,根据全局变量中存储的方向将比对结果输出。 4.根据全局变量中存储的方向使用matplotlib画出路径 。
全局比对代码如下:
import matplotlib.pyplot as pltimport numpy as np#定义全局变量列表finalList存储最后回溯的路径 finalOrder1,finalOrder2存储最后的序列 finalRoad用于存储方向路径用于最后画图def createList(): global finalList global finalOrder1 global finalOrder2 global finalRoad finalList = [] finalOrder1 = [] finalOrder2 = [] finalRoad = []#创建A G C T 对应的键值对,方便查找计分矩阵中对应的得分def createDic(): dic = {'A':0,'G':1,'C':2,'T':3} return dic#构建计分矩阵# A G C Tdef createGrade(): grade = np.matrix([[10,-1,-3,-4], [-1,7,-5,-3], [-3,-5,9,0], [-4,-3,0,8]]) return grade#计算两个字符的相似度得分函数def getGrade(a,b): dic = createDic() # 碱基字典 方便查找计分矩阵 grade = createGrade() # 打分矩阵grade return grade[dic[a],dic[b]]#构建得分矩阵函数 参数为要比较序列、自定义的gap值def createMark(s,t,gap): a = len(s) #获取序列长度a,b b = len(t) mark = np.zeros((a+1,b+1)) #初始化全零得分矩阵 direction = np.zeros((a+1,b+1,3)) #direction矩阵用来存储得分矩阵中得分来自的方向 第一个表示左方 第二个表示左上 第三个表示上方 1表示能往哪个方向去 #由于得分可能会来自多个方向,所以使用三维矩阵存储 direction[0][0] = -1 #确定回溯时的结束条件 即能够走到方向矩阵的值为-1 mark[0,:] = np.fromfunction(lambda x, y: gap * (x + y), (1, b + 1), dtype=int) #根据gap值将得分矩阵第一行计算出 mark[:,0] = np.fromfunction(lambda x, y: gap * (x + y), (1, a + 1), dtype=int) #根据gap值将得分矩阵第一列计算出 for i in range(1,b+1): direction[0,i,0] = 1 for i in range(1, a + 1): direction[i, 0, 2] = 1 for i in range(1,a+1): for j in range(1,b+1): threeMark = [mark[i][j-1],mark[i-1][j-1],mark[i-1][j]] #threeMark表示现在所要计算得分的位置的左边 左上 上边的得分 threeGrade = [gap,getGrade(s[i-1],t[j-1]),gap] #threeGrade表示经过需要计算得左边 左上 上边的空位以及相似度得分 finalGrade = np.add(threeMark,threeGrade) #finalGrade表示最终来自三个方向上的得分 mark[i][j] = max(finalGrade) #选取三个方向上的最大得分存入得分矩阵 #可能该位置的得分可以由多个方向得来,所以进行判断并循环赋值 for k in range(0,len([y for y,x in enumerate(finalGrade) if x == max(finalGrade)])): directionList = [y for y,x in enumerate(finalGrade) if x == max(finalGrade)] direction[i][j][directionList[k]] = 1 return mark,direction#回溯函数 参数分别为 得分矩阵 方向矩阵 现在所处得分矩阵的位置 以及两个序列def remount(mark,direction,i,j,s,t): if direction[i][j][0] == 1 : if direction[i][j-1][0] == -1: #如果该位置指向左边 先判断其左边是否是零点 finalList.append(0) #如果是 将该路径存入路径列表 finalList.reverse() #将列表反过来得到从零点开始的路径 index1 = 0 #记录现在所匹配序列s的位置 因为两个字符串可能是不一样长的 index2 = 0 #记录现在所匹配序列t的位置 for k in finalList: if k == 0 : finalOrder1.append("-") finalOrder2.append(t[index2]) index2 += 1 if k == 1 : finalOrder1.append(s[index1]) finalOrder2.append(t[index2]) index1 += 1 index2 += 1 if k == 2 : finalOrder1.append(s[index1]) finalOrder2.append("-") index1 += 1 finalList.reverse() # 将原来反转的路径再返回来 finalRoad.append(np.array(finalList)) # 将此次的路径添加到最终路径记录用于最后画图 finalList.pop() #输出后将当前方向弹出 并回溯 return else : finalList.append(0) #如果不是零点 则将该路径加入路径矩阵,继续往下走 remount(mark,direction,i,j-1,s,t) finalList.pop() #该方向走完后将这个方向弹出 继续下一轮判断 下面两个大的判断同理 if direction[i][j][1] == 1 : if direction[i-1][j-1][0] == -1: finalList.append(1) finalList.reverse() # 将列表反过来得到从零点开始的路径 index1 = 0 # 记录现在所匹配序列s的位置 因为两个字符串可能是不一样长的 index2 = 0 # 记录现在所匹配序列t的位置 for k in finalList: if k == 0 : finalOrder1.append("-") finalOrder2.append(t[index2]) index2 += 1 if k == 1 : finalOrder1.append(s[index1]) finalOrder2.append(t[index2]) index1 += 1 index2 += 1 if k == 2 : finalOrder1.append(s[index1]) finalOrder2.append("-") index1 += 1 finalList.reverse() # 将原来反转的路径再返回来 finalRoad.append(np.array(finalList)) # 将此次的路径添加到最终路径记录用于最后画图 finalList.pop() return else : finalList.append(1) remount(mark,direction,i-1,j-1,s,t) finalList.pop() if direction[i][j][2] == 1 : if direction[i-1][j][0] == -1: finalList.append(2) finalList.reverse() # 将列表反过来得到从零点开始的路径 index1 = 0 # 记录现在所匹配序列s的位置 因为两个字符串可能是不一样长的 index2 = 0 # 记录现在所匹配序列t的位置 for k in finalList: if k == 0 : finalOrder1.append("-") finalOrder2.append(t[index2]) index2 += 1 if k == 1 : finalOrder1.append(s[index1]) finalOrder2.append(t[index2]) index1 += 1 index2 += 1 if k == 2 : finalOrder1.append(s[index1]) finalOrder2.append("-") index1 += 1 finalList.reverse() # 将原来反转的路径再返回来 finalRoad.append(np.array(finalList)) # 将此次的路径添加到最终路径记录用于最后画图 finalList.pop() return else : finalList.append(2) remount(mark,direction,i-1,j,s,t) finalList.pop()#画箭头函数def arrow(ax,sX,sY,aX,aY): ax.arrow(sX,sY,aX,aY,length_includes_head=True, head_width=0.15, head_length=0.25, fc='w', ec='b')#画图函数def drawArrow(mark, direction, a, b, s, t): #a是s的长度为4 b是t的长度为6 fig = plt.figure() ax = fig.add_subplot(111) val_ls = range(a+2) scale_ls = range(b+2) index_ls = [] index_lsy = [] for i in range(a): if i == 0: index_lsy.append('#') index_lsy.append(s[a-i-1]) index_lsy.append('0') for i in range(b): if i == 0: index_ls.append('#') index_ls.append('0') index_ls.append(t[i]) plt.xticks(scale_ls, index_ls) #设置坐标字 plt.yticks(val_ls, index_lsy) for k in range(1,a+2): y = [k for i in range(0,b+1)] x = [x for x in range(1,b+2)] ax.scatter(x, y, c='y') for i in range(1,a+2): for j in range(1,b+2): ax.text(j,a+2-i,int(mark[i-1][j-1])) lX = b+1 lY = 1 for n in range(0,len(finalRoad)): for m in (finalRoad[n]): if m == 0: arrow(ax,lX,lY,-1,0) lX = lX - 1 elif m == 1: arrow(ax,lX,lY,-1,1) lX = lX - 1 lY = lY + 1 elif m == 2: arrow(ax, lX, lY, 0, 1) lY = lY + 1 lX = b + 1 lY = 1 ax.set_xlim(0, b + 2) # 设置图形的范围,默认为[0,1] ax.set_ylim(0, a + 2) # 设置图形的范围,默认为[0,1] ax.set_aspect('equal') # x轴和y轴等比例 plt.show() plt.tight_layout()if __name__ == '__main__': createList() print("Please enter gap:") gap = int(input()) #获取gap值 转换为整型 tip:刚开始就是因为这里没有进行类型导致后面的计算部分报错 print("Please enter sequence 1:") s = input() #获取用户输入的第一条序列 print("Please enter sequence 2:") t = input() #获取用户输入的第二条序列 a = len(s) #获取s的长度 b = len(t) #获取t的长度 mark,direction = createMark(s,t,gap) print("The scoring matrix is as follows:") #输出得分矩阵 print(mark) remount(mark,direction,a,b,s,t) #调用回溯函数 c = a if a > b else b #判断有多少种比对结果得到最终比对序列的长度 total = int(len(finalOrder1)/c) for i in range(1,total+1): #循环输出比对结果 k = str(i) print("Sequence alignment results "+k+" is:") print(finalOrder1[(i-1)*c:i*c]) print(finalOrder2[(i-1)*c:i*c]) drawArrow(mark, direction, a, b, s, t)
局部比对代码如下 。
import matplotlib.pyplot as pltimport numpy as npimport operator#在局部比对中 回溯结束的条件是方向矩阵中该位置的值全为0#定义全局变量列表finalList存储最后回溯的路径 finalOrder1,finalOrder2存储最后的序列def createList(): global finalList global finalOrder1 global finalOrder2 global finalRoad finalList = [] finalOrder1 = [] finalOrder2 = [] finalRoad = []#创建A G C T 对应的键值对,方便查找计分矩阵中对应的得分def createDic(): dic = {'A':0,'G':1,'C':2,'T':3} return dic#构建计分矩阵# A G C Tdef createGrade(): grade = np.matrix([[10,-1,-3,-4], [-1,7,-5,-3], [-3,-5,9,0], [-4,-3,0,8]]) return grade#计算两个字符的相似度得分函数def getGrade(a,b): dic = createDic() # 碱基字典 方便查找计分矩阵 grade = createGrade() # 打分矩阵grade return grade[dic[a],dic[b]]#构建得分矩阵函数 参数为要比较序列、自定义的gap值def createMark(s,t,gap): a = len(s) #获取序列长度a,b b = len(t) mark = np.zeros((a+1,b+1)) #初始化全零得分矩阵 direction = np.zeros((a+1,b+1,3)) #direction矩阵用来存储得分矩阵中得分来自的方向 第一个表示左方 第二个表示左上 第三个表示上方 1表示能往哪个方向去 #由于得分可能会来自多个方向,所以使用三维矩阵存 for i in range(1,a+1): for j in range(1,b+1): threeMark = [mark[i][j-1],mark[i-1][j-1],mark[i-1][j]] #threeMark表示现在所要计算得分的位置的左边 左上 上边的得分 threeGrade = [gap,getGrade(s[i-1],t[j-1]),gap] #threeGrade表示经过需要计算得左边 左上 上边的空位以及相似度得分 finalGrade = np.add(threeMark,threeGrade) #finalGrade表示最终来自三个方向上的得分 if max(finalGrade) >= 0: #如果该最大值是大于0的则 选取三个方向上的最大得分存入得分矩阵 否则不对矩阵进行修改 mark[i][j] = max(finalGrade) for k in range(0,len([y for y,x in enumerate(finalGrade) if x == max(finalGrade)])): #可能该位置的得分可以由多个方向得来,所以进行判断并循环赋值 directionList = [y for y,x in enumerate(finalGrade) if x == max(finalGrade)] direction[i][j][directionList[k]] = 1 return mark,direction#回溯函数 参数分别为 得分矩阵 方向矩阵 现在所处得分矩阵的位置 以及两个序列def remount(mark,direction,i,j,s,t): if direction[i][j][0] == 1 : if all(direction[i][j-1] == [0,0,0]): #如果该位置指向左边 先判断其左边是否是零点 finalList.append(0) #如果是 将该路径存入路径列表 finalList.reverse() #将列表反过来得到从零点开始的路径 index1 = i #记录现在所匹配序列s的位置 因为两个字符串可能是不一样长的 index2 = j-1 #记录现在所匹配序列t的位置 for k in finalList: if k == 0 : finalOrder1.append("-") finalOrder2.append(t[index2]) index2 += 1 if k == 1 : finalOrder1.append(s[index1]) finalOrder2.append(t[index2]) index1 += 1 index2 += 1 if k == 2 : finalOrder1.append(s[index1]) finalOrder2.append("-") index1 += 1 finalList.reverse() finalRoad.append(np.array(finalList)) # 将此次的路径添加到最终路径记录用于最后画图 finalList.pop() #输出后将当前方向弹出 并回溯 return else : finalList.append(0) #如果不是零点 则将该路径加入路径矩阵,继续往下走 remount(mark,direction,i,j-1,s,t) finalList.pop() #该方向走完后将这个方向弹出 继续下一轮判断 下面两个大的判断同理 if direction[i][j][1] == 1 : if all(direction[i-1][j-1] == [0,0,0]): finalList.append(1) finalList.reverse() # 将列表反过来得到从零点开始的路径 index1 = i-1 # 记录现在所匹配序列s的位置 因为两个字符串可能是不一样长的 index2 = j-1 # 记录现在所匹配序列t的位置 for k in finalList: if k == 0 : finalOrder1.append("-") finalOrder2.append(t[index2]) index2 += 1 if k == 1 : finalOrder1.append(s[index1]) finalOrder2.append(t[index2]) index1 += 1 index2 += 1 if k == 2 : finalOrder1.append(s[index1]) finalOrder2.append("-") index1 += 1 finalList.reverse() finalRoad.append(np.array(finalList)) # 将此次的路径添加到最终路径记录用于最后画图 finalList.pop() return else : finalList.append(1) remount(mark,direction,i-1,j-1,s,t) finalList.pop() if direction[i][j][2] == 1 : if all(direction[i-1][j] == [0,0,0]): finalList.append(2) finalList.reverse() # 将列表反过来得到从零点开始的路径 index1 = i-1 # 记录现在所匹配序列s的位置 因为两个字符串可能是不一样长的 index2 = j # 记录现在所匹配序列t的位置 for k in finalList: if k == 0 : finalOrder1.append("-") finalOrder2.append(t[index2]) index2 += 1 if k == 1 : finalOrder1.append(s[index1]) finalOrder2.append(t[index2]) index1 += 1 index2 += 1 if k == 2 : finalOrder1.append(s[index1]) finalOrder2.append("-") index1 += 1 finalList.reverse() finalRoad.append(np.array(finalList)) # 将此次的路径添加到最终路径记录用于最后画图 finalList.pop() return else : finalList.append(2) remount(mark,direction,i-1,j,s,t) finalList.pop()#画箭头函数def arrow(ax,sX,sY,aX,aY): ax.arrow(sX,sY,aX,aY,length_includes_head=True, head_width=0.15, head_length=0.25, fc='w', ec='b')#画图函数def drawArrow(mark, direction, a, b, s, t,mx,my): #a是s的长度为4 b是t的长度为6 fig = plt.figure() ax = fig.add_subplot(111) val_ls = range(a+2) scale_ls = range(b+2) index_ls = [] index_lsy = [] for i in range(a): if i == 0: index_lsy.append('#') index_lsy.append(s[a-i-1]) index_lsy.append('0') for i in range(b): if i == 0: index_ls.append('#') index_ls.append('0') index_ls.append(t[i]) plt.xticks(scale_ls, index_ls) #设置坐标字 plt.yticks(val_ls, index_lsy) for k in range(1,a+2): y = [k for i in range(0,b+1)] x = [x for x in range(1,b+2)] ax.scatter(x, y, c='y') for i in range(1,a+2): for j in range(1,b+2): ax.text(j,a+2-i,int(mark[i-1][j-1])) lX = my + 1 lY = a - mx + 1 for n in range(0,len(finalRoad)): for m in (finalRoad[n]): if m == 0: arrow(ax,lX,lY,-1,0) lX = lX - 1 elif m == 1: arrow(ax,lX,lY,-1,1) lX = lX - 1 lY = lY + 1 elif m == 2: arrow(ax, lX, lY, 0, 1) lY = lY + 1 lX = b + 1 lY = 1 ax.set_xlim(0, b + 2) # 设置图形的范围,默认为[0,1] ax.set_ylim(0, a + 2) # 设置图形的范围,默认为[0,1] ax.set_aspect('equal') # x轴和y轴等比例 plt.show() plt.tight_layout()if __name__ == '__main__': createList() print("Please enter gap:") gap = int(input()) #获取gap值 转换为整型 tip:刚开始就是因为这里没有进行类型导致后面的计算部分报错 print("Please enter sequence 1:") s = input() #获取用户输入的第一条序列 print("Please enter sequence 2:") t = input() #获取用户输入的第二条序列 a = len(s) #获取s的长度 b = len(t) #获取t的长度 mark,direction = createMark(s,t,gap) print("The scoring matrix is as follows:") #输出得分矩阵 print(mark) maxDirection = np.argmax(mark) #获取最大值的位置 i = int(maxDirection/(b+1)) j = int(maxDirection - i*(b+1)) remount(mark,direction,i,j,s,t) #调用回溯函数 print(finalOrder1) print(finalOrder2) drawArrow(mark, direction, a, b, s, t, i, j)
2、实验结果截图 。
1.全局比对 。
2.局部比对 。
到此这篇关于详解基于python的全局与局部序列比对的实现(DNA)的文章就介绍到这了,更多相关python全局与局部序列比对内容请搜索我以前的文章或继续浏览下面的相关文章希望大家以后多多支持我! 。
总结 。
本次实验使用动态规划对全局序列比对进行了实现,自己卡的最久的地方是回溯以及画图的时候。刚开始在实现回溯的过程中,老是找不准回溯的条件以及将所有的路径都记录下来的方法,最后是使用的方向矩阵,也就是重新定义一个与得分矩阵等大的矩阵(但是这个矩阵是三维),存放的是每个位置能够回溯的方向,第一个数值表示左边,第二个表示左上,第三个表示上方,为0时表示当前方向不能回溯,没有路径,为1时表示能回溯,当该位置的所有能走的方向都走完时即可返回。将所有路径记录下来的方法是定义全局变量,当有路径能够走到终点时便将这条路径存放入该全局变量中。 绘图的时候使用的是matplotlib中的散点图,然后将每个点的得分以注释的形式标记在该点的右上角,并用箭头将路径绘出。不得不说的是,这个图确实太丑了,我学识浅薄,也没想到能画出这个图的更好的方法,还希望老师指点。 总的来说这次实验经历的时间还比较长,主要是因为python也没有很熟悉,很多函数也是查了才知道,然后可视化更是了解的少,所以画出来的图出奇的丑,还有回溯的时候也是脑子转不过弯来,所以要学习的东西还有很多,需要更加努力。 本次实验还能够有所改进的地方是: 1.把两个比对算法结合,让用户能够选择使用哪种比对方式。 2.作出一个更好看的界面,增加用户体验感。 3.把图画的更美观。 (老丁已阅,USC的同学们谨慎借鉴) 。
原文链接:https://blog.csdn.net/mmqwqf/article/details/108922579 。
最后此篇关于详解基于python的全局与局部序列比对的实现(DNA)的文章就讲到这里了,如果你想了解更多关于详解基于python的全局与局部序列比对的实现(DNA)的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
我正在处理一组标记为 160 个组的 173k 点。我想通过合并最接近的(到 9 或 10 个组)来减少组/集群的数量。我搜索过 sklearn 或类似的库,但没有成功。 我猜它只是通过 knn 聚类
我有一个扁平数字列表,这些数字逻辑上以 3 为一组,其中每个三元组是 (number, __ignored, flag[0 or 1]),例如: [7,56,1, 8,0,0, 2,0,0, 6,1,
我正在使用 pipenv 来管理我的包。我想编写一个 python 脚本来调用另一个使用不同虚拟环境(VE)的 python 脚本。 如何运行使用 VE1 的 python 脚本 1 并调用另一个 p
假设我有一个文件 script.py 位于 path = "foo/bar/script.py"。我正在寻找一种在 Python 中通过函数 execute_script() 从我的主要 Python
这听起来像是谜语或笑话,但实际上我还没有找到这个问题的答案。 问题到底是什么? 我想运行 2 个脚本。在第一个脚本中,我调用另一个脚本,但我希望它们继续并行,而不是在两个单独的线程中。主要是我不希望第
我有一个带有 python 2.5.5 的软件。我想发送一个命令,该命令将在 python 2.7.5 中启动一个脚本,然后继续执行该脚本。 我试过用 #!python2.7.5 和http://re
我在 python 命令行(使用 python 2.7)中,并尝试运行 Python 脚本。我的操作系统是 Windows 7。我已将我的目录设置为包含我所有脚本的文件夹,使用: os.chdir("
剧透:部分解决(见最后)。 以下是使用 Python 嵌入的代码示例: #include int main(int argc, char** argv) { Py_SetPythonHome
假设我有以下列表,对应于及时的股票价格: prices = [1, 3, 7, 10, 9, 8, 5, 3, 6, 8, 12, 9, 6, 10, 13, 8, 4, 11] 我想确定以下总体上最
所以我试图在选择某个单选按钮时更改此框架的背景。 我的框架位于一个类中,并且单选按钮的功能位于该类之外。 (这样我就可以在所有其他框架上调用它们。) 问题是每当我选择单选按钮时都会出现以下错误: co
我正在尝试将字符串与 python 中的正则表达式进行比较,如下所示, #!/usr/bin/env python3 import re str1 = "Expecting property name
考虑以下原型(prototype) Boost.Python 模块,该模块从单独的 C++ 头文件中引入类“D”。 /* file: a/b.cpp */ BOOST_PYTHON_MODULE(c)
如何编写一个程序来“识别函数调用的行号?” python 检查模块提供了定位行号的选项,但是, def di(): return inspect.currentframe().f_back.f_l
我已经使用 macports 安装了 Python 2.7,并且由于我的 $PATH 变量,这就是我输入 $ python 时得到的变量。然而,virtualenv 默认使用 Python 2.6,除
我只想问如何加快 python 上的 re.search 速度。 我有一个很长的字符串行,长度为 176861(即带有一些符号的字母数字字符),我使用此函数测试了该行以进行研究: def getExe
list1= [u'%app%%General%%Council%', u'%people%', u'%people%%Regional%%Council%%Mandate%', u'%ppp%%Ge
这个问题在这里已经有了答案: Is it Pythonic to use list comprehensions for just side effects? (7 个答案) 关闭 4 个月前。 告
我想用 Python 将两个列表组合成一个列表,方法如下: a = [1,1,1,2,2,2,3,3,3,3] b= ["Sun", "is", "bright", "June","and" ,"Ju
我正在运行带有最新 Boost 发行版 (1.55.0) 的 Mac OS X 10.8.4 (Darwin 12.4.0)。我正在按照说明 here构建包含在我的发行版中的教程 Boost-Pyth
学习 Python,我正在尝试制作一个没有任何第 3 方库的网络抓取工具,这样过程对我来说并没有简化,而且我知道我在做什么。我浏览了一些在线资源,但所有这些都让我对某些事情感到困惑。 html 看起来
我是一名优秀的程序员,十分优秀!