gpt4 book ai didi

python - DNA 到蛋白质序列

转载 作者:太空宇宙 更新时间:2023-11-03 15:58:06 28 4
gpt4 key购买 nike

我正在尝试创建一个程序,使用以下字典将用户输入的 DNA 序列翻译为 3 个替代蛋白质序列(密码子是键,氨基酸是值):

{'TGA': '*', 'GCG': 'A', 'CGA': 'R', 'ATA': 'I', 'AGA': 'R', 'TAA' : '*', 'TTT': 'F', 'GAG': 'E', 'CTT': 'L', 'CGT': 'R', 'CTC': 'L', 'CTG': ' L'、'TGT':'C'、'CCA':'P'、'AAT':'N'、'GTC':'V'、'GAC':'D'、'GAT':'D' 、“TAT”:“Y”、“AAA”:“K”、“GTA”:“V”、“TAG”:“*”、“CGC”:“R”、“GCA”:“A”、“TCG':'S'、'GCT':'A'、'GCC':'A'、'TGG':'W'、'TTC':'F'、'CCC':'P'、'TTG' :'L','CGG':'R','GGC':'G','AGG':'R','TCC':'S','CCT':'P','GGT':' G'、'GGG':'G'、'TCA':'S'、'AGC':'S'、'CAG':'Q'、'CAC':'H'、'ATC':'I' 、“GAA”:“E”、“GTG”:“V”、“CCG”:“P”、“CAT”:“H”、“AAG”:“K”、“ATG”:“M”、“AAC':'N','TAC':'Y','TGC':'C','CTA':'L','TCT':'S','ATT':'I','ACG' :“T”、“AGT”:“S”、“GTT”:“V”、“TTA”:“L”、“CAA”:“Q”、“GGA”:“G”、“ACC”:“T','ACA':'T','ACT':'T'}

我只想使用映射而不是biopython。因此,当程序运行时,它应该如下所示:

Please enter a DNA sequence: GCTgttaagactatgaaaagaataagcaacaccatcaat

Frame 1 is AVKTMKRISNTIN

Frame 2 is LLRL*KE*ATPS

Frame 3 is C*DYEKNKQHHQ

我已经从文件创建了这本字典,但我不确定如何从这里开始。任何帮助将不胜感激。谢谢!

最佳答案

声明字典:

prot_match = {'TGA': '*', 'GCG': 'A', 'CGA': 'R', 'ATA': 'I', 'AGA': 'R', 'TAA': '*', 'TTT': 'F', 'GAG': 'E', 'CTT': 'L', 'CGT': 'R', 'CTC': 'L', 'CTG': 'L', 'TGT': 'C', 'CCA': 'P', 'AAT': 'N', 'GTC': 'V', 'GAC': 'D', 'GAT': 'D', 'TAT': 'Y', 'AAA': 'K', 'GTA': 'V', 'TAG': '*', 'CGC': 'R', 'GCA': 'A', 'TCG': 'S', 'GCT': 'A', 'GCC': 'A', 'TGG': 'W', 'TTC': 'F', 'CCC': 'P', 'TTG': 'L', 'CGG': 'R', 'GGC': 'G', 'AGG': 'R', 'TCC': 'S', 'CCT': 'P', 'GGT': 'G', 'GGG': 'G', 'TCA': 'S', 'AGC': 'S', 'CAG': 'Q', 'CAC': 'H', 'ATC': 'I', 'GAA': 'E', 'GTG': 'V', 'CCG': 'P', 'CAT': 'H', 'AAG': 'K', 'ATG': 'M', 'AAC': 'N', 'TAC': 'Y', 'TGC': 'C', 'CTA': 'L', 'TCT': 'S', 'ATT': 'I', 'ACG': 'T', 'AGT': 'S', 'GTT': 'V', 'TTA': 'L', 'CAA': 'Q', 'GGA': 'G', 'ACC': 'T', 'ACA': 'T', 'ACT': 'T'}

将字符串切成 3 个字符的 block :

def chunks (arr, size = 1, frame = 1):
return [arr[i: i+size] for i in range(frame - 1, len(arr), size)]
dna = input('Enter DNA: ').upper()

然后,映射当前序列的 prot_match 值(为了安全起见,如果您不确定该序列,请使用 get):

frames = 3
for frame in range(frames):
chunked_dna = chunks(dna, 3, frame + 1)
prot_seq = map(lambda seq: prot_match.get(seq, '0'), chunked_dna )

最后,使用 join 从图谱中获取字符串形式的蛋白质序列:

    prot_seq = ''.join(prot_seq)
print('Protein sequence number', frame + 1, ':', prot_seq)
<小时/>

示例(这些片段放在一个文件中):

Enter DNA: GCTgttaagactatgaaaagaataagcaacaccatcaat
Protein sequence number 1 : AVKTMKRISNTIN
Protein sequence number 2 : LLRL*KE*ATPS0
Protein sequence number 3 : C*DYEKNKQHHQ0

关于python - DNA 到蛋白质序列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40591893/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com