作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个大型 Variant Call 格式 (VCF) 文件(> 4GB),其中包含多个样本的数据。
我浏览过 Google、Stackoverflow 并尝试过 R 中的 VariantAnnotation 包,以某种方式仅提取特定样本的数据,但没有找到有关如何在 R 中执行此操作的任何信息。
有没有人尝试过类似的东西,或者可能知道另一个可以实现这一点的软件包?
最佳答案
在 VariantAnnotation使用 ScanVcfParam
指定要提取的数据。使用包中包含的示例 VCF 文件
library(VariantAnnotation)
vcfFile = system.file(package="VariantAnnotation", "extdata", "chr22.vcf.gz")
scanVcfHeader(vcfFile)
## class: VCFHeader
## samples(5): HG00096 HG00097 HG00099 HG00100 HG00101
## meta(1): fileformat
## fixed(0):
## info(22): LDAF AVGPOST ... VT SNPSOURCE
## geno(3): GT DS GL
param = ScanVcfParam(
info=c("LDAF", "AVGPOST"),
geno="GT",
samples=c("HG00097", "HG00101"),
which=GRanges("22", IRanges(50300000, 50400000)))
vcf = readVcf(vcfFile, "hg19", param=param)
head(geno(vcf)[["GT"]])
## HG00097 HG00101
## rs7410291 "0|0" "0|0"
## rs147922003 "0|0" "0|0"
## rs114143073 "0|0" "0|0"
## rs141778433 "0|0" "0|0"
## rs182170314 "0|0" "0|0"
## rs115145310 "0|0" "0|0"
head(info(vcf)[["LDAF"]])
## [1] 0.3431 0.0091 0.0098 0.0062 0.0041 0.0117
ranges(vcf)
## IRanges of length 1169
## start end width names
## [1] 50300078 50300078 1 rs7410291
## [2] 50300086 50300086 1 rs147922003
## [3] 50300101 50300101 1 rs114143073
## [4] 50300113 50300113 1 rs141778433
## [5] 50300166 50300166 1 rs182170314
## ... ... ... ... ...
## [1165] 50364310 50364312 3 22:50364310_GCA/G
## [1166] 50364311 50364313 3 22:50364311_CAT/C
## [1167] 50364464 50364464 1 rs150069372
## [1168] 50364465 50364465 1 rs146661152
## [1169] 50364609 50364609 1 rs184235324
readGeno
(或
readGT
或
readInfo
用于类似的专门查询)。
?ScanVcfParam
;
example(ScanVcfParam)
.
关于r - 从 VCF 文件中提取样本数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21598212/
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。 我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题,以便
我需要从 iOS 中的 .wav 文件(或任何其他格式)中提取 PCM 音频样本。我还想使用麦克风从现场录音中获取相同的数据。 这可以使用 AVFoundation 来完成,还是我需要使用较低级别的
我必须生成一些随机数据,但是来自给定的正则表达式。 例如我有这些规则: 1) IsRegEx('^(((([0-1]?[0-9]|2[0-3])(:[0-5][0-9])?)?:)?[0-5])?[
我是一名优秀的程序员,十分优秀!