gpt4 book ai didi

snakemake - 在 snakemake 运行期间动态减少输入文件集

转载 作者:行者123 更新时间:2023-12-05 05:21:26 28 4
gpt4 key购买 nike

这更多是关于 snakemake 功能的技术问题。我想知道是否可以在 snakemake 运行期间动态更改输入样本集。

我想这样做的原因如下:让我们假设一组样本相关的 bam 文件。第一条规则确定每个样本的质量(基于 bam 文件),即涉及所有输入文件。但是,根据指定的标准,只有一部分样本被认为是有效的,应该进一步处理。所以下一步(例如基因计数或其他)应该只对批准的 bam 文件进行,如下面的最小示例所示:

configfile: "config.yaml"

rule all:
input: "results/gene_count.tsv"

rule a:
input: expand( "data/{sample}.bam", sample=config['samples'])
output: "results/list_of_qual_approved_samples.out"
shell: '''command'''

rule b:
input: expand( "data/{sample}.bam", sample=config['valid_samples'])
output: "results/gene_count.tsv"
shell: '''command'''

在此示例中,规则 a 将使用有效样本名称列表扩展配置文件,即使我相信知道这是不可能的。

当然,直接的解决方案是有两个不同的输入:1.) 所有 bam 文件和 2.) 列出所有有效文件的文件。这将归结为在规则代码中进行样本选择。

rule alternative_b:
input:
expand( "data/{sample}.bam", sample=config['samples']),
"results/list_of_qual_approved_samples.out"
output: "results/gene_count.tsv"
shell: '''command'''

但是,您是否找到一种方法来设置规则以实现第一个示例的行为?

非常感谢,拉尔夫

最佳答案

另一种方法,不使用“动态”。

并不是您不知道要使用多少文件,而是您只使用了开始时使用的文件的一个子集。由于您能够生成所有潜在文件的“samples.txt”列表,我假设您有一个坚定的起点。

我做了类似的事情,我有一些初始文件,我想处理这些文件的有效性(在我的例子中,我正在提高质量~排序、索引等)。然后我想忽略除我的结果文件之外的所有内容。

为了避免创建示例文件的辅助列表,我建议创建第二个数据目录 (reBamDIR)、data2 (BamDIR)。在 data2 中,您对所有有效文件进行符号链接(symbolic link)。这样,Snake 就可以处理 data2 目录中的所有内容。使管道更容易向下移动,管道可以停止依赖示例列表,并且它可以使用通配符处理所有内容(更容易编码)。这是可能的,因为当我使用符号链接(symbolic link)然后标准化名称时。我在输出规则中列出了符号链接(symbolic link)文件,以便 Snakemake 了解它们,然后它可以创建 DAG。

`-- output
|-- bam
| |-- Pfeiffer2.bam -> /home/tboyarski/share/projects/tboyarski/gitRepo-LCR-BCCRC/Snakemake/buildArea/output/reBam/Pfeiffer2_realigned_sorted.bam
| `-- Pfeiffer2.bam.bai -> /home/tboyarski/share/projects/tboyarski/gitRepo-LCR- BCCRC/Snakemake/buildArea/output/reBam/Pfeiffer2_realigned_sorted.bam.bai
|-- fastq
|-- mPile
|-- reBam
| |-- Pfeiffer2_realigned_sorted.bam
| `-- Pfeiffer2_realigned_sorted.bam.bai

在这种情况下,您所需要的只是“验证器”中的返回值,以及响应它的条件运算符。

我认为您已经在某处拥有它,因为您必须在验证步骤中使用条件。无需使用它将文件名写入 txt 文件,只需将文件符号链接(symbolic link)到最终位置并继续。

我的原始数据在 reBamDIR 中。我存储在 BamDIR 中的最终数据。我只将管道中此阶段的文件符号链接(symbolic link)到 bamDIR。reBamDIR 中还有其他文件,但我不希望我的管道的其余部分看到它们,因此,我将它们过滤掉。

我不确定如何实现“验证器”和您的条件,因为我不知道您的情况,而且我还在学习。只是试图提供替代观点//方法。

from time import gmtime, strftime

rule indexBAM:
input:
expand("{outputDIR}/{reBamDIR}/{{samples}}{fileTAG}.bam", outputDIR=config["outputDIR"], reBamDIR=config["reBamDIR"], fileTAG=config["fileTAG"])
output:
expand("{outputDIR}/{reBamDIR}/{{samples}}{fileTAG}.bam.bai", outputDIR=config["outputDIR"], reBamDIR=config["reBamDIR"], fileTAG=config["fileTAG"]),
expand("{outputDIR}/{bamDIR}/{{samples}}.bam.bai", outputDIR=config["outputDIR"], bamDIR=config["bamDIR"]),
expand("{outputDIR}/{bamDIR}/{{samples}}.bam", outputDIR=config["outputDIR"], bamDIR=config["bamDIR"])
params:
bamDIR=config["bamDIR"],
outputDIR=config["outputDIR"],
logNAME="indexBAM." + strftime("%Y-%m-%d.%H-%M-%S", gmtime())
log:
"log/" + config["reBamDIR"]
shell:
"samtools index {input} {output[0]} " \
" 2> {log}/{params.logNAME}.stderr " \
"&& ln -fs $(pwd)/{output[0]} $(pwd)/{params.outputDIR}/{params.bamDIR}/{wildcards.samples}.bam.bai " \
"&& ln -fs $(pwd)/{input} $(pwd)/{params.outputDIR}/{params.bamDIR}/{wildcards.samples}.bam"

关于snakemake - 在 snakemake 运行期间动态减少输入文件集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42852099/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com