gpt4 book ai didi

python - 随机选择 fasta 文件中的行子集

转载 作者:行者123 更新时间:2023-12-01 01:46:53 25 4
gpt4 key购买 nike

我有一个大约 1800 万次读取的 fasta 文件。我将它的头部带入 Python 中,并使用带有 if/else 语句的 forloop 构建了一个字典,其中 key = readID 和 value = 序列。

我现在想从原始文件中随机选择 10,000 个读数的子集。我认为另一个 for 循环是必要的,但我不知道从哪里开始。

提前致谢

最佳答案

当您使用 FASTQfiles 时,您确实应该使用 BioPython 。它支持读取 FASTQ 文件并将其转换为字典,无需 for 循环。 For taking random samples, use the random module from the standard library .

from Bio import SeqIO
import random

record_dict = SeqIO.to_dict(SeqIO.parse("example.fastq", "fastq"))
random_reads = random.sample(record_dict.items(), 10000)
for readID, sequence in random_reads:
print(readID, sequence)

关于python - 随机选择 fasta 文件中的行子集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51230479/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com