- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个通过 Snakemake 的样本列表。当我到达我的 fastqc 步骤时,我突然发现每个样本有两个文件(R1 和 R2 文件)。考虑以下规则:
rule fastqc:
input:
os.path.join(fastq_dir, '{sample}_R1_001.fastq.gz'),
os.path.join(fastq_dir, '{sample}_R2_001.fastq.gz')
output:
os.path.join(fastq_dir, '{sample}_R1_fastq.html'),
os.path.join(fastq_dir, '{sample}_R2_fastq.html')
conda:
"../envs/fastqc.yaml"
shell:
'''
#!/bin/bash
fastqc {input} --outdir={fastqc_dir}
'''
这是行不通的。我还尝试了以下方法:
rule fastqc:
input:
expand([os.path.join(fastq_dir, '{sample}_R{read}_001.fastq.gz')], read=['1', '2']
output:
expand([os.path.join(fastq_dir, '{sample}_R{read}_fastq.html')], read=['1', '2']
conda:
"../envs/fastqc.yaml"
shell:
'''
#!/bin/bash
fastqc {input} --outdir={fastqc_dir}
'''
这也行不通,我得到:
No values given for wildcard 'sample'.
然后我尝试了:
rule fastqc:
input:
expand([os.path.join(fastq_dir, '{sample}_R{read}_001.fastq.gz')], read=['1', '2'], sample=samples['samples'])
output:
expand([os.path.join(fastqc_dir, '{sample}_R{read}_fastqc.html')], read=['1', '2'], sample=samples['samples'])
conda:
"../envs/fastqc.yaml"
shell:
'''
#!/bin/bash
fastqc {input} --outdir={fastqc_dir}
'''
但这似乎将所有 fastq 文件都输入到一个 shell 脚本中。
我应该如何正确地“循环”1 个样本的多个输入?
致以最崇高的敬意。
编辑:
我的规则都是这样的,也许我也应该改变它,对吧(请参阅 fastqc 的最后两行)?
# Rule all is a pseudo-rule that tells snakemake what final files to generate.
rule all:
input:
expand([os.path.join(analyzed_dir, '{sample}.genes.results'),
os.path.join(rseqc_dir, '{sample}.bam_stat.txt'),
os.path.join(rseqc_dir, '{sample}.clipping_profile.xls'),
os.path.join(rseqc_dir, '{sample}.deletion_profile.txt'),
os.path.join(rseqc_dir, '{sample}.infer_experiment.txt'),
os.path.join(rseqc_dir, '{sample}.geneBodyCoverage.txt'),
os.path.join(rseqc_dir, '{sample}.inner_distance.txt'),
os.path.join(rseqc_dir, '{sample}.insertion_profile.xls'),
os.path.join(rseqc_dir, '{sample}.junction.xls'),
os.path.join(rseqc_dir, '{sample}.junctionSaturation_plot.r'),
os.path.join(rseqc_dir, '{sample}.mismatch_profile.xls'),
os.path.join(rseqc_dir, '{sample}.read_distribution.txt'),
os.path.join(rseqc_dir, '{sample}.pos.DupRate.xls'),
os.path.join(rseqc_dir, '{sample}.seq.DupRate.xls'),
os.path.join(rseqc_dir, '{sample}.GC.xls'),
os.path.join(rseqc_dir, '{sample}.NVC.xls'),
os.path.join(rseqc_dir, '{sample}.qual.r'),
os.path.join(rseqc_dir, '{sample}.RNA_fragment_size.txt'),
os.path.join(rseqc_dir, '{sample}.STAR.genome.sorted.summary.txt'),
os.path.join(fastq_dir, '{sample}_R1_fastq.html'),
os.path.join(fastq_dir, '{sample}_R2_fastq.html')],
sample=samples['samples'])
最佳答案
是的,这个是我“自己”想出来的。神奇之处在于“统治一切”部分。
这种规则组合有效:
reads = ['1', '2']
# Rule all is a pseudo-rule that tells snakemake what final files to generate.
rule all:
input:
expand([os.path.join(analyzed_dir, '{sample}.genes.results'),
os.path.join(rseqc_dir, '{sample}.bam_stat.txt'),
os.path.join(rseqc_dir, '{sample}.clipping_profile.xls'),
os.path.join(rseqc_dir, '{sample}.deletion_profile.txt'),
os.path.join(rseqc_dir, '{sample}.infer_experiment.txt'),
os.path.join(rseqc_dir, '{sample}.geneBodyCoverage.txt'),
os.path.join(rseqc_dir, '{sample}.inner_distance.txt'),
os.path.join(rseqc_dir, '{sample}.insertion_profile.xls'),
os.path.join(rseqc_dir, '{sample}.junction.xls'),
os.path.join(rseqc_dir, '{sample}.junctionSaturation_plot.r'),
os.path.join(rseqc_dir, '{sample}.mismatch_profile.xls'),
os.path.join(rseqc_dir, '{sample}.read_distribution.txt'),
os.path.join(rseqc_dir, '{sample}.pos.DupRate.xls'),
os.path.join(rseqc_dir, '{sample}.seq.DupRate.xls'),
os.path.join(rseqc_dir, '{sample}.GC.xls'),
os.path.join(rseqc_dir, '{sample}.NVC.xls'),
os.path.join(rseqc_dir, '{sample}.qual.r'),
os.path.join(rseqc_dir, '{sample}.RNA_fragment_size.txt'),
os.path.join(rseqc_dir, '{sample}.STAR.genome.sorted.summary.txt'),
os.path.join(fastqc_dir, '{sample}_R{read}_001_fastqc.html')],
sample=samples['samples'], read=reads)
请注意将 {read} 简单地添加到其他相同的 fastqc 部分和顶部的定义或“读取”(样本是标准样本列表)。
我使用这个 fastqc 规则:
rule fastqc:
input:
os.path.join(fastq_dir, '{sample}_R{read}_001.fastq.gz')
output:
os.path.join(fastqc_dir, '{sample}_R{read}_001_fastqc.html')
conda:
"../envs/fastqc.yaml"
shell:
'''
#!/bin/bash
fastqc {input} --outdir={fastqc_dir}
'''
它与“全部规则”(如往常一样)具有相同的行。这行得通,感谢大家的支持,释放吧。
关于bioinformatics - 使用 Snakemake 的 fastqc,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54098886/
我目前遇到了一些关于 snakemake 运行检查点所需的中间规则的问题。在尝试解决此问题后,我认为问题出在 aggregate_input 函数中的 expand 命令中,但无法弄清楚为什么会这样。
1000 基因组计划为我们提供了有关数千人 DNA 序列与人类引用 DNA 序列“变异”的信息。变体存储在 VCF 中文件 格式。基本上,对于该项目中的每个人,我们都可以从 VCF 文件中获取他/她的
我尝试使用一种工具,但我需要在输入时使用通配符。 这是一个例子: aDict = {"120":"121" } #tumor : normal rule all: input: expand("{c
我正在尝试查找带有基因名和染色体位置的gene_info 文件。但是,我似乎无法在 NCBI FTP 站点上找到它。谁能给我指点? 最佳答案 见:ftp://ftp.ncbi.nlm.nih.gov/
我下载了 1000 个基因组数据(染色体 1 -22),采用 VCF 格式。如何将所有染色体合并到一个文件中?我应该先将所有染色体转换为 plink 二进制文件,然后再执行 --bmerge mmer
我试图了解 FASTA 算法在数据库中搜索查询序列的相似序列的基本步骤。这些是算法的步骤: 识别 I 和 J 之间的常见 k 词 用 k 字匹配对对角线进行评分,确定 10 个最佳 对角线 使用替代分
我对找到一些需要按拓扑排序的现实世界中的海量数据集(> = 1M)感兴趣。也许与生物信息学有关的东西? 最佳答案 您看过Stanford Large Network Dataset Collectio
我正在尝试使用 plink 将 .vcf 文件转换为 .ped 文件。我在网上看了一些手册和帖子,但似乎没有人特别提到如何将vcf转换为ped。 我希望这里可能有一些专家,他们有使用plink将vcf
我想过滤具有超过 8 个相同连续核苷酸的序列,例如 "GGGGGGGG" , "CCCCCCCC"等在我的 fastq 文件中。 我该怎么做? 最佳答案 快速且不正确的方式,可能足够接近:grep -
我很快意识到,生物信息学并不是一门定义明确且易于访问的学科。我与我的一些结果存在明显差异。 我用过 samtools view -b -h -f 8 fileName.bam > mateUnmapp
我很想知道是否有任何生物信息学工具能够处理 multiFASTA 文件,为我提供序列数量、长度、核苷酸/氨基酸含量等信息,并可能自动绘制描述图。 也可以使用 R BIOconductor 解决方案或
我正在尝试使用“Needleman -Wunsch”的“全局比对”算法来实现蛋白质成对序列比对。 我不清楚如何在我的源代码中包含“Blosum62 矩阵”来进行评分或填充二维矩阵? 我用谷歌搜索发现大
我在大学的生物信息学类(class)中有一个项目,我项目中的其中一件事是基因预测。 我今天的问题是如何获取字符串中多个特定单词的所有索引。例如,在我这里的例子中,我想找到所有出现的起始密码子 ("AU
我想做一个工作流,从远程服务器下载一些 FASTQ 文件的列表,检查 md5 并运行一些后处理,例如对齐。 我了解如何使用两个工作流程来实现这一点: 首先下载fastq文件列表文件,例如md5文件。
这个问题不太可能帮助任何 future 的访问者;它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关,这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用,visit
我正在编写一个 python 脚本,并希望将查询序列信息作为字符串变量而不是 FASTA 格式文件(如果可能)传递给 blastn。 我使用 Biopython 的 SeqIO 将多个转录名称存储为键
我有一个基因序列 - "acguccgcaagagaagccuuaauauauucaaaaagcuacgccucagauuucgcgcucgagcccaaaacaacugguguacggguugauc
我有一个网络 ( figure A ), . 在这个图中,每个节点中心(我很困惑,它是一个子节点吗?)的颜色与节点填充颜色不同,我该怎么做?谢谢你。 最佳答案 有趣的图。光是看着,我就可以想象出几种方
我正在与 PLINK 一起工作分析全基因组数据。 有谁知道如何去除重复的 SNP? 最佳答案 在 PLINK 1.9 中,使用 --list-duplicate-vars suppress-first
我有一个通过 Snakemake 的样本列表。当我到达我的 fastqc 步骤时,我突然发现每个样本有两个文件(R1 和 R2 文件)。考虑以下规则: rule fastqc: input:
我是一名优秀的程序员,十分优秀!