- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我开始将我的工作流程从 Nextflow
迁移到 Snakemake
并且在我的管道开始时已经碰壁了,这些管道通常以数字列表(代表来 self 们检测器的“运行编号”)。
例如,我有一个 run-list.txt
就像
# detector_id run_number
75 63433
75 67325
42 57584
42 57899
42 58998
然后需要将其逐行传递给查询数据库或数据存储系统并将文件检索到本地系统的进程。
这意味着例如75 63433
将通过接收 detector_id=75
和 run_number=63433
的规则生成输出 RUN_00000075_00063433.h5
作为输入参数。
使用 Nextflow
这相当容易,只需定义一个进程来发出这些值的元组。
我不太明白如何在 Snakemake
中做这样的事情,因为输入和输出似乎总是需要文件(远程或本地)。事实上,有些文件确实可以通过 iRODS 和/或 XRootD 访问,但即便如此,我也需要先从运行选择开始,它在列表中定义,如 run-list.txt
以上。
我现在的问题是:解决这个问题的 Snakemake 风格方法是什么?
无法工作的伪代码将是:
rule:
input:
[line for line in open("run-list.txt").readlines()]
output:
"{detector_id}_{run_number}.h5"
shell:
"detector_id, run_number = line.split()"
"touch "{detector_id}_{run_number}.h5""
最佳答案
在 Snakemake 中,您将使用此文件生成要输入工作流程的值列表。您将在规则之外解析检测器 ID 和运行编号。在我的脑海中,如果您想使用外部库,您的运行列表看起来可以用 pandas 巧妙地处理。
import pandas as pd
run_list = pd.read_csv("run-list.txt", header=0, names=["detector_id", "run_number"], sep=" ")
detector_ids = list(run_list["detector_id"])
run_numbers = list(run_list["run_number"])
然后,在假设您的文件名不需要需要用零填充的情况下,运行您想要获取一个文件的规则是:
rule do_something:
output: "{detector_id}_{run_number}.h5"
shell: "do_something_with {wildcards.detector_id} {wildcards.run_number}"
仅凭这条规则,detector_id
和 run_number
理论上可以是任何东西,所以你需要一些东西来告诉 Snakemake 以产生输出你想要的。要为文件中的所有 行运行此命令,您需要设置一个规则,将文件定义的所有潜在输出作为输入。
rule run_all:
input: expand("{detector_id}_{run_number}.h5", zip, detector_id=detector_ids, run_number=run_numbers)
使用 zip
部分确保第一个检测器 ID 与第一个运行编号一致,依此类推。
最后,您将运行它并指定要运行的规则的名称,因此 snakemake run_all
。
关于python - 在 Snakemake 工作流程中作为输入的值数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71142612/
我想使用 Snakemake 使用 SRR ID 从 SRA 数据库下载 fastq 文件。我读取了一个文件以使用 python 代码获取 SRR ID。 我想一个一个解析Variable作为输入。我
这更多是关于 snakemake 功能的技术问题。我想知道是否可以在 snakemake 运行期间动态更改输入样本集。 我想这样做的原因如下:让我们假设一组样本相关的 bam 文件。第一条规则确定每个
我正在创建一个 snakemake 管道,在某些时候,我可以在其中过滤我的结果。但是我可以应用两种过滤器,所以我想在启动管道时将其作为参数提供,然后根据参数,我想应用一个或另一个规则。 举个例子: s
我有以下 Snakemake 文件: rule test: params: a = "a" shell: "echo {params.a}" 按预期工作
我有以下 Snakemake 文件: rule test: params: a = "a" shell: "echo {params.a}" 按预期工作
我有一个复杂的工作流程,我逐渐扩展了它。最后一个扩展导致 AmbiguousRuleException。我试图在以下示例中重现工作流的关键结构: NUMBERS = ["1", "2"] LETTER
上下文 规则 A 在 shell 指令中使用 split 命令。rule A 生成的文件数量取决于用户在配置中指定的值,因此是已知的。 在this question存在差异,因为输出文件的数量未知,但
我正在尝试创建一种简单的方法来在一个规则中创建工作流所需的所有子目录。但是,每当我尝试执行在工作流顶部创建所有必需目录的规则时,我都会收到 ChildIOException ,这对我来说毫无意义: B
我有一个 Snakemake 规则,适用于数据存档并本质上解压其中的数据。文件包含我在规则开始之前知道的不同数量的文件,因此我想利用它并执行类似的操作 rule unpack: input:
我想将每个 snakemake 作业执行的 shell 命令保存到日志文件中。 使用 --printshellcmds 我可以在提交时将 shell 命令打印到标准输出,但我想将它们保存到单独的文件中
我有一个很长的蛇形工作流程,处理 9 个具有许多并行规则的样本。当我为 DAG 创建图片时: snakemake --forceall --dag | dot -Tpdf > dag.pdf 生成的
我有一个奇怪的问题,它来来去去,我真的不知道什么时候以及为什么。 我正在运行这样的蛇形管道: conda activate $myEnv snakemake -s $snakefile --co
在snakemake 中,我想从config 访问 key 。从内部shell:指示。我可以用 {input.foo} , {output.bar} , 和 {params.baz} ,但是 {con
在我的第一次运行中,我有两类样本要由不同的参数处理,然后在第二次运行中将它们合并在一起。像下面的例子: SAMPLES = ['1', '2', '3'] CLASS1 = ['1', '2'] CL
我想问 Snakemake 社区是否有人在 AWS Batch 中成功实现了 Snakemake 工作流程。 2018 年 10 月最近发布的第 4 页似乎表明 Snakemake 在 AWS 上不起
问题很简单: 我想从规则调用脚本,并且我希望该规则同时适用于: 执行 stdout 和 stderr 重定向 从脚本中访问snakemake变量(变量可以是列表和文字) 如果我使用 shell:,那么
由于 conda 环境未处于事件状态,工作流的一些非常晚的作业崩溃了。 现在,当我尝试使用 snakemake deploy_all --ignore-incomplete 重新运行时,所有作业都直接
我开始尝试在 Snakemake 中使用容器,我有一个问题,什么需要预先构建到容器中,什么不需要。例如: 我想在一个容器中运行一个 python 脚本(例如,存储在 workflow_root/scr
以下蛇形脚本: rule all: input: 'test.done' rule pipe: output: 'test.done' shell:
我使用的所有脚本都将输出文件放在调用脚本的当前目录中,因此在我的 shell 脚本管道中,我会让 cd 命令转到特定目录以运行命令,而输出文件将仅保存在相关目录中。我的脚本没有输出目录的参数,大多数脚
我是一名优秀的程序员,十分优秀!