gpt4 book ai didi

python - 连接没有顶行的大文件 - python 或 bash?

转载 作者:塔克拉玛干 更新时间:2023-11-02 23:23:19 24 4
gpt4 key购买 nike

我有 10 个基因型数据的 .txt 文件 - 每个都来自不同的染色体。它们每行的列数都相同,而且列的顺序也相同。每个文件都以相同的第一行开头。

我想做的是按照 chr1、chr2、chr3...chr10 的顺序将所有 10 个文件附加到一个基因型文件中。但是,我只想保留 chr1 的标题行,因此它将保留为标题,并在将它们全部附加在一起之前从后续染色体中删除所有标题。

例如,如果我有:

文件1:

chr, position, geno1, geno2
1, 100, A, C
1, 200, G, T

文件2:

chr, position, geno1, geno2
2, 50, T, A
2, 150, C, G

我想以 file_combined 结束:

chr, position, geno1, geno2
1, 100, A, C
1, 200, G, T
2, 50, T, A
2, 150, C, G

考虑到每个文件为 400-600Mb 而生成的文件将约为 6Gb,最好/最快的方法是什么?我对编写 Python 和 Linux shell 脚本比较舒服,但是解释为什么代码很快以及它在做什么将是一个加号!谢谢!

最佳答案

你可以做到

cp chr1 output
for f in chr[2-9] chr10; do sed -n '2,$p' $f >> output; done

评论后更新
实际上,使用 tail 甚至更简单

cp chr1 output
tail -qn +2 chr[2-9] chr10 >> output

关于python - 连接没有顶行的大文件 - python 或 bash?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24638468/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com