gpt4 book ai didi

linux - 当行顺序很重要时解压 .gz 文件

转载 作者:太空宇宙 更新时间:2023-11-04 10:51:26 26 4
gpt4 key购买 nike

我正在尝试解压缩 fastq.gz 文件,然后分析其中的测序数据。但是,以后的分析取决于在解压缩文件中按顺序保存行(压缩文件中的第 1 行必须是解压缩文件中的第 1 行)。

当我手动查看文件时,在我看来,使用 gunzip 解压缩 fatsq.gz 文件时,行顺序被保留了(我不希望有其他任何东西)。但是,下游分析失败,因为未保留原始文件中的顺序。我是否遗漏了有关解压缩过程的某些信息?

看起来像下面这样的事情正在发生。

Sequencer向fastq.txt写入数据:

line1
line2
line3
lin4

然后将其压缩成 fastq.gz。然后我使用 gunzip 解压缩并出现类似以下内容,其中行顺序被打乱:

line2
line1
line4
line3

最佳答案

gzip/gunzip 循环不应该 - 我们有理由相信它 -修改一个文件的内容。此外,在这种情况下,数据损坏和算法错误通常表现为一大堆垃圾,而不是整齐地重新排序的文本行。

几个备选方案:

  • 您的音序器实际上并没有首先输出正确排序的那些行。

  • 如果涉及多个未压缩的文件,可能是您的排序器执行了与 gzip -c file* > fastq.gz 相同的操作,输入文件被命名为 file1文件 2 ... 文件 9 文件 10。当 file* 以此类文件的字母顺序扩展时,file10 将在 file2 之前处理,从而弄乱了输出中的顺序。

  • 如果涉及多个压缩文件,解压时可能会出现同样的错误。

关于linux - 当行顺序很重要时解压 .gz 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30879476/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com