python - Snakemake 使用字典值扩展-6ren

python - Snakemake 使用字典值扩展

转载作者：行者123 更新时间：2023-12-05 04:23:38

26

4

我有一个字典，其中键作为患者 ID，fastq 文件列表作为值。

patient_samples = {
  "patientA": ["sample1", "sample2", "sample3"],
  "patientB": ["sample1", "sample4", "sample5", "sample6"]
}

我想对齐每个 sample.fastq 并将对齐后的 .bam 文件输出到每个患者的目录中。我想要的结果目录结构是这样的:

├── patientA│   ├── sample1.bam│   ├── sample2.bam│   ├── sample3.bam├── patientB│   ├── sample1.bam│   ├── sample4.bam│   ├── sample5.bam│   ├── sample6.bam

Here I used lambda wildcards to get the samples for each patient using the "patient_samples" dictionary.

rule align:
    input:
        lambda wildcards: \
            ["{0}.fastq".format(sample_id) \ 
            for sample_id in patient_samples[wildcards.patient_id]
            ]
    output:
        {patient_id}/{sample_id}.bam"
    shell:
        ### Alignment command

我如何编写规则 all 以反射(reflect)每个患者只有特定样本对齐？我尝试引用字典键来指定示例:

rule all:
    input:
        expand("{patient_id}/{sample_id}.bam", patient_id=patient_samples.keys(), sample_id=patient_samples[patient_id])

但是，这会导致 NameError:名称“patient_id”未定义

还有其他方法吗？

最佳答案

错误是因为 expand 命令在列出 sample_id 值时不知道要使用的 patient_id 是什么:

expand(
   "{patient_id}/{sample_id}.bam",
   patient_id=patient_samples.keys(),
   sample_id=patient_samples[patient_id])
                                ^^^^^ Unknown

当您已经有了带有通配符值的列表时，使用 expand 很方便，在更复杂的情况下，最好使用 python:

list_inputs_all = [
   f"{patient_id}/{sample_id}.bam"
   for patient_id, sample_id
   in patient_samples.items()
]
   
rule all:
    input:
        list_inputs_all

关于python - Snakemake 使用字典值扩展，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/73683630/

26

4

0

文章推荐： reactjs - 交换键仍然引入新鲜的 DOM 元素

文章推荐： google-sheets - ARRAYFORMULA 仅填充第一行

文章推荐： java - 递归计算字符串中的字符并将 "eu"视为单个字符

snakemake - 如何在 snakemake 中将变量值作为输入传递？
我想使用 Snakemake 使用 SRR ID 从 SRA 数据库下载 fastq 文件。我读取了一个文件以使用 python 代码获取 SRR ID。我想一个一个解析Variable作为输入。我
snakemake - 在 snakemake 运行期间动态减少输入文件集
这更多是关于 snakemake 功能的技术问题。我想知道是否可以在 snakemake 运行期间动态更改输入样本集。我想这样做的原因如下:让我们假设一组样本相关的 bam 文件。第一条规则确定每个
snakemake - 根据提供给 snakemake 管道的参数有条件地执行一个或另一个规则
我正在创建一个 snakemake 管道，在某些时候，我可以在其中过滤我的结果。但是我可以应用两种过滤器，所以我想在启动管道时将其作为参数提供，然后根据参数，我想应用一个或另一个规则。举个例子: s
snakemake - Snakemake 文件中存在多个 "params"
我有以下 Snakemake 文件: rule test: params: a = "a" shell: "echo {params.a}" 按预期工作
snakemake - Snakemake 文件中存在多个 "params"
我有以下 Snakemake 文件: rule test: params: a = "a" shell: "echo {params.a}" 按预期工作
snakemake - 理解和克服 snakemake 中的 AmbiguousRuleException
我有一个复杂的工作流程，我逐渐扩展了它。最后一个扩展导致 AmbiguousRuleException。我试图在以下示例中重现工作流的关键结构: NUMBERS = ["1", "2"] LETTER
snakemake - 当文件数量已知时，如何在 snakemake 中实现文件拆分
上下文规则 A 在 shell 指令中使用 split 命令。rule A 生成的文件数量取决于用户在配置中指定的值，因此是已知的。在this question存在差异，因为输出文件的数量未知，但
snakemake - 尝试为工作流 [Snakemake] 创建目录时出现 ChildIOException
我正在尝试创建一种简单的方法来在一个规则中创建工作流所需的所有子目录。但是，每当我尝试执行在工作流顶部创建所有必需目录的规则时，我都会收到 ChildIOException ，这对我来说毫无意义: B
snakemake - Snakemake 中不同(已知)的输出数量
我有一个 Snakemake 规则，适用于数据存档并本质上解压其中的数据。文件包含我在规则开始之前知道的不同数量的文件，因此我想利用它并执行类似的操作 rule unpack: input:
snakemake - 从 snakemake 记录执行的 shell 命令
我想将每个 snakemake 作业执行的 shell 命令保存到日志文件中。使用 --printshellcmds 我可以在提交时将 shell 命令打印到标准输出，但我想将它们保存到单独的文件中
snakemake - 使用 snakemake 打印简化的 DAG 图
我有一个很长的蛇形工作流程，处理 9 个具有许多并行规则的样本。当我为 DAG 创建图片时: snakemake --forceall --dag | dot -Tpdf > dag.pdf 生成的
python - snakemake 集群脚本 ImportError snakemake.utils
我有一个奇怪的问题，它来来去去，我真的不知道什么时候以及为什么。我正在运行这样的蛇形管道: conda activate $myEnv snakemake -s $snakefile --co
snakemake - 如何访问 `shell` 部分内的 Snakemake 配置变量？
在snakemake 中，我想从config 访问 key 。从内部shell:指示。我可以用 {input.foo} , {output.bar} , 和 {params.baz} ，但是 {con
snakemake - snakemake 中的 ambiguousruleexception，两个分支的 parms 崩溃
在我的第一次运行中，我有两类样本要由不同的参数处理，然后在第二次运行中将它们合并在一起。像下面的例子: SAMPLES = ['1', '2', '3'] CLASS1 = ['1', '2'] CL
snakemake - 在 AWS Batch 中使用 Snakemake 工作流程
我想问 Snakemake 社区是否有人在 AWS Batch 中成功实现了 Snakemake 工作流程。 2018 年 10 月最近发布的第 4 页似乎表明 Snakemake 在 AWS 上不起
python - Snakemake 使用脚本进行 shell I/O 重定向和访问 Snakemake 变量
问题很简单: 我想从规则调用脚本，并且我希望该规则同时适用于: 执行 stdout 和 stderr 重定向从脚本中访问snakemake变量(变量可以是列表和文字) 如果我使用 shell:，那么
snakemake - 如何忽略 Snakemake 的 "params have changed since last execution"？
由于 conda 环境未处于事件状态，工作流的一些非常晚的作业崩溃了。现在，当我尝试使用 snakemake deploy_all --ignore-incomplete 重新运行时，所有作业都直接
docker - Snakemake 奇点与本地资源/关于 Snakemake 与 --use-singularity 的问题
我开始尝试在 Snakemake 中使用容器，我有一个问题，什么需要预先构建到容器中，什么不需要。例如: 我想在一个容器中运行一个 python 脚本(例如，存储在 workflow_root/scr
snakemake - 处理snakemake中的SIGPIPE错误
以下蛇形脚本: rule all: input: 'test.done' rule pipe: output: 'test.done' shell:
snakemake:有没有办法为每个规则指定一个输出目录？
我使用的所有脚本都将输出文件放在调用脚本的当前目录中，因此在我的 shell 脚本管道中，我会让 cd 命令转到特定目录以运行命令，而输出文件将仅保存在相关目录中。我的脚本没有输出目录的参数，大多数脚

首页

博学

6Ren·AI

商城

python - Snakemake 使用字典值扩展