gpt4 book ai didi

bash - 在 Unix 中合并 fastq.gz 文件

转载 作者:行者123 更新时间:2023-12-02 04:41:25 25 4
gpt4 key购买 nike

我正在使用这个脚本来连接我从样本中读取的内容。每个子目录都有特定的 R1.fastq.gz 文件和 R2.fastq.gz,我想将它们合并到一个 R1.fastq.gz 和 R2.fastq .gz 文件。

sourcedir=/sourcepath/
destdir=/destinationpath/

for f in $sourcedir/*
do
fbase=$(basename "$f")
echo "Inside $fbase"
zcat $f/*R1*.fastq.gz | gzip >$destdir/"$fbase"_R1.fastq.gz
zcat $f/*R2*.fastq.gz | gzip >$destdir/"$fbase"_R2.fastq.gz

done

我想通过比较来自单个 fastq.gz 文件的总行数和合并文件中的总行数来验证来自 R1、R2 的读取是否分别连接在一起。

 wc -l *R1*.fastq.gz (Individual files)
12832112 total

wc -l Sample_51770BL1_R1.fastq.gz (merged file)
Total:10397604

在这两种情况下数量不应该相等,或者是否有任何其他方法来验证合并的文件是否正确完成?

还有,有什么方法可以加快这个过程吗?我尝试使用 & 从这个链接 How do I use parallel programming/multi threading in my bash script?但它根本没有运行。

zcat $f/*R1*.fastq.gz | gzip >$destdir/"$fbase"_R1.fastq.gz &
zcat $f/*R2*.fastq.gz | gzip >$destdir/"$fbase"_R2.fastq.gz &

最佳答案

您正在 .gz 文件上运行 wc -l,这不是您想要的。要验证,您可以改用这样的东西:

zcat *R1*.fastq.gz | wc -l
zcat Sample_51770BL1_R1.fastq.gz | wc -l

尽管您可能希望使用适当的校验和算法,例如与 sha256sum工具,为此。


至于并行化,您可以并行化解压缩,但不能并行化压缩,因为您是将内容一个接一个地写入一个流(文件)中。例如像这样:

sourcedir=/sourcepath/
destdir=/destinationpath/

for f in $sourcedir/*; do
fbase=${f##*/}
echo "Inside $fbase"
for R in 1 2; do
for xf in $f/*R$R*.fastq.gz; do
gzip -dc <$xf >${xf%.gz} &
done
wait
cat $f/*R$R*.fastq | gzip -n9 >$destdir/"$fbase"_R$R.fastq.gz
rm -f $f/*R$R*.fastq
done
done

这种方法的问题是您需要将中间解压缩结果写入磁盘(或其他临时存储),这通常比不并行解压缩(很多)慢。此外,您不能以这种方式在 R1 和 R2 之间并行化。

另一种选择是,仅在 Rf 之间并行化(从胃的感觉来看,这应该可以在不向后弯腰的情况下实现最佳结果很多):

sourcedir=/sourcepath/
destdir=/destinationpath/

for f in $sourcedir/*; do
fbase=${f##*/}
echo "Inside $fbase"
for R in 1 2; do
zcat $f/*R$R*.fastq.gz | gzip -n9 >$destdir/"$fbase"_R$R.fastq.gz &
done
done
wait

希望这对您有所帮助!

关于bash - 在 Unix 中合并 fastq.gz 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20751925/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com