bash - 在 Unix 中合并 fastq.gz 文件-6ren

bash - 在 Unix 中合并 fastq.gz 文件

转载作者：行者123 更新时间：2023-12-02 04:41:25

25

4

我正在使用这个脚本来连接我从样本中读取的内容。每个子目录都有特定的 R1.fastq.gz 文件和 R2.fastq.gz，我想将它们合并到一个 R1.fastq.gz 和 R2.fastq .gz 文件。

sourcedir=/sourcepath/
destdir=/destinationpath/

for f in $sourcedir/*
do
  fbase=$(basename "$f")
  echo "Inside $fbase"
  zcat $f/*R1*.fastq.gz | gzip >$destdir/"$fbase"_R1.fastq.gz 
  zcat $f/*R2*.fastq.gz | gzip >$destdir/"$fbase"_R2.fastq.gz

done

我想通过比较来自单个 fastq.gz 文件的总行数和合并文件中的总行数来验证来自 R1、R2 的读取是否分别连接在一起。

 wc -l *R1*.fastq.gz (Individual files)
 12832112 total

 wc -l Sample_51770BL1_R1.fastq.gz  (merged file)
 Total:10397604

在这两种情况下数量不应该相等，或者是否有任何其他方法来验证合并的文件是否正确完成？

还有，有什么方法可以加快这个过程吗？我尝试使用 & 从这个链接 How do I use parallel programming/multi threading in my bash script?但它根本没有运行。

zcat $f/*R1*.fastq.gz | gzip >$destdir/"$fbase"_R1.fastq.gz &
zcat $f/*R2*.fastq.gz | gzip >$destdir/"$fbase"_R2.fastq.gz &

最佳答案

您正在 .gz 文件上运行 wc -l，这不是您想要的。要验证，您可以改用这样的东西:

zcat *R1*.fastq.gz | wc -l
zcat Sample_51770BL1_R1.fastq.gz | wc -l

尽管您可能希望使用适当的校验和算法，例如与 sha256sum工具，为此。

至于并行化，您可以并行化解压缩，但不能并行化压缩，因为您是将内容一个接一个地写入一个流(文件)中。例如像这样:

sourcedir=/sourcepath/
destdir=/destinationpath/

for f in $sourcedir/*; do
        fbase=${f##*/}
        echo "Inside $fbase"
        for R in 1 2; do
                for xf in $f/*R$R*.fastq.gz; do
                        gzip -dc <$xf >${xf%.gz} &
                done
                wait
                cat $f/*R$R*.fastq | gzip -n9 >$destdir/"$fbase"_R$R.fastq.gz
                rm -f $f/*R$R*.fastq
        done
done

这种方法的问题是您需要将中间解压缩结果写入磁盘(或其他临时存储)，这通常比不并行解压缩(很多)慢。此外，您不能以这种方式在 R1 和 R2 之间并行化。

另一种选择是，仅在 R 和 f 之间并行化(从胃的感觉来看，这应该可以在不向后弯腰的情况下实现最佳结果很多):

sourcedir=/sourcepath/
destdir=/destinationpath/

for f in $sourcedir/*; do
        fbase=${f##*/}   
        echo "Inside $fbase"
        for R in 1 2; do
                zcat $f/*R$R*.fastq.gz | gzip -n9 >$destdir/"$fbase"_R$R.fastq.gz &
        done
done
wait

希望这对您有所帮助!

关于bash - 在 Unix 中合并 fastq.gz 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20751925/

25

4

0

文章推荐： time - OLSON/IANA 时区的更好名称

文章推荐： haskell - 约束 : Two type variables can be used with an operator

文章推荐： php - 字符类中的单词

文章推荐： scroll - "Disable horizontal scroll on Apple MBP multi touch trackpad"

bash - 如何解压缩文件夹中的所有 .gz 文件并将它们组合成一个新文件而不为每个 .gz 文件生成未压缩的文件
我想将所有 .gz 文件解压缩到一个文件夹中，然后将它们合并到一个新文件中。我可以在不为每个 .gz 文件生成未压缩文件的情况下执行此操作吗？非常感谢! 最佳答案你可以这样做: zcat *.gz
python - 解压缩 .gz 文件并将它们存储在 .tar.gz 存档中
我有以下问题:我正在编写一个函数来查找一堆 .gz 文件，解压缩它们，并将单独解压缩的文件存储在更大的 .tar.gz 中存档。到目前为止，我设法用下面的代码实现它，但手动计算未压缩的文件大小并设置
java - 在解压缩 .gz 文件时，解压缩并创建为本地副本的文件没有 .gz 可用的原始文件的最后修改时间
有没有办法读取 tar 文件格式的文件时间戳，以便为解压文件设置相同的时间。例如:Tar 文件中有多个文件，我想读取一个文件的最后修改时间戳。请查找下面使用的代码。我正在使用 apache co
正则表达式 egrep 找到 .gz 但不是 .tar.gz
我需要在目录中找到所有 .gz 文件但不是 .tar.gz 文件，然后发送所有。 gz 文件到 some_other_command 进行处理。到目前为止我可以做到: 找到 . -regextyp
linux - 将 .gz 文件解压到/tmp 位置并在任务完成后删除未压缩的 .gz 文件
我的逐行读取文件的脚本如下， file= "/c/User/XXX/Desktop/XYZ.log" while IFS= read -r line do if echo $line | gr
linux - 无法在终端中解压缩 .gz 文件 - file.gz : not in gzip format
我有一个 db.tar.gz 文件(大约 500mb)，我正在使用 vagrant (unix) 终端解压缩该文件。使用以下instructions在这里，我使用gunzip尝试使用下面的命令解压缩
linux - 如何将 filename.bz2.gz 文件转换为 filename.gz
我有一堆 filename.bz2.gz 的文件，我想将其转换为 filename.gz。有什么帮助吗？谢谢最佳答案有了您的文件名*.bz2.gz，我假设该文件是使用以下压缩顺序创建的: ec
linux - 将 .gz 文件拆分为多个 1GB 压缩 (.gz) 文件
我在 Linux 上有一个 250GB 的 gzip 文件，我想将它分成 250 个 1GB 的文件并即时压缩生成的部分文件(一旦生成一个文件，它就应该被压缩)。我试过用这个 - zcat file.
linux - .tar.gz 和先是 gz 然后是 tar 的区别
我制作了我的文件夹的两个压缩副本，首先使用命令 tar czf dir.tar.gz dir这给了我一个大小为 ~16kb 的存档。然后我尝试了另一种方法，首先我将所有文件压缩到目录中，然后使用 gz
java - 如何递归解压 war/ear/pack.gz/tar.gz 类型的文件
是否有一种简单明了的方法来递归解压 war/ear/pack.gz/tar.gz 类型的嵌套文件，从而创建一个目录树 - war 中的耳朵等也如此？我不在乎它是在标准 shell 中还是在 java
扩展名 tgz、tar.gz、TGZ 和 TAR.GZ 的正则表达式
我正在尝试获取一个正则表达式(在 bash 中)来识别仅具有以下扩展名的文件: tgz、tar.gz、TGZ 和 TAR.GZ。我尝试了几个但无法让它工作。我使用此正则表达式来仅选择具有这些扩展名
linux - *.1.gz 和 *.1posix.gz 文件之间的差异(UNIX 联机帮助页)
我正在开发一个有关 UNIX 联机帮助页的项目，我意识到其中一些联机帮助页以 .1.gz 的形式成对存在。和.1posix.gz . 为什么有两个关于同一个实用程序的联机帮助页(我主要对第 1 部分感
linux - 解压多个 *.tar.gz.aa *.tar.gz.ab 模式文件
我压缩了一个文件夹并在压缩时将其拆分为 200mb 的 tar.gz 文件。我怎样才能解压缩它们？有没有一种方法可以在一个命令中执行此操作，还是我必须分别执行每个命令？最佳答案您甚至不能单独进行。
css - 让 maven 提供像 css.gz 和 js.gz 这样的文件
我已经使用手动 gzip 手动压缩了我的 CSS，并且我正在尝试包含来自外部源的 css.gz。 " type="text/css" media="screen" /> 当我使用 PHP 和 Apac
linux - 如何在不提取内容并在 UBUNTU 中创建新的 .tar.gz 文件的情况下重命名 .tar.gz 文件？
我有一个命令可以从现有文件创建一个新的 .tar.gz 文件， sudo tar -zcvf Existing.tar.gz New.tar.gz 此命令将从现有的 Existing.tar.gz
python - os.path.splitext(file.txt.gz) 转化为 (file,.txt.gz)
目前，我有以/path_to_file/file.txt.gz 结尾的文件。我想拆分提取文件名(在 .txt.gz 之前)。 x = os.path.basename("/path_to_file/
linux - 仅从字符串 "89dde7.rqsnhq34h.fmu8s1vn0i94hl.tgz.tar.gz"中删除 ".tar.gz"
仅从字符串 89dde7.rqsnhq34h.fmu8s1vn0i94hl.tgz.tar.gz 中删除 .tar.gz 部分，结果应为 89dde7.rqsnhq34h.fmu8s1vn0i94hl
nginx - GeoIP.dat.gz 和 GeoLiteCity.dat.gz 不再可用？获取 404 尝试加载它
前几天开始下载了 http://geolite.maxmind.com/download/geoip/database/GeoLiteCountry/GeoIP.dat.gz http://geoli
linux - logrotate 会删除 .gz 文件吗？也就是说，带 * 路径的 logrotate 是否会旋转现有的 .gz 文件？
//, 这个问题有点模棱两可。场景如下: 我有以下三个扩展名的日志，但我当前的规则仅适用于 *.log 文件: .1 .log .txt 另外，因为 Tomcat 正在轮换日志，所以我有以下内容:
amazon-web-services - AWS CLI - 有没有办法将 tar.gz 从 S3 提取到主目录而不存储 tar.gz？
详细说明，我的 AWS S3 上有一个 tar.gz 文件，我们将其命名为 example.tar.gz。所以，我想要做的是将 example.tar.gz 的提取内容下载到 /var/home/

首页

博学

6Ren·AI

商城

bash - 在 Unix 中合并 fastq.gz 文件