- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在与 PLINK 一起工作分析全基因组数据。
有谁知道如何去除重复的 SNP?
最佳答案
在 PLINK 1.9 中,使用 --list-duplicate-vars suppress-first
,这将列出重复项,并删除一个(第一个),保持另一个完整。我知道这会滑倒。
而不是使用 --exclude
正如戴维所建议的,您也可以使用 --extract
,保留而不是删除 SNP 列表。在任何基于 Unix 的系统上都有一个简单的方法(假设您的数据是 PED/MAP 格式并被染色体切割):
for i in {1..22}; do
cat yourfile_chr${i}.map | grep "$i" | cut -f -4 | uniq | cut -f -2 | keepers_chr${i}.txt;
done
keepers_chr.txt
带有 SNP ID 的文件,用于位于唯一位置的 SNP。然后运行 PLINK 将原始文件提供给它并使用
--extract keepers_chr
, 与
--make-bed --out unique_file
关于bioinformatics - 如何使用 PLink 删除重复的 SNP?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9863208/
我有两个文件,一个是位置信息,另一个是序列信息。现在我需要读取位置并在位置获取snps,然后用序列中的snp信息替换该位置基数并将其写入snp信息文件中..例如 SNP 文件包含 10 A C A/C
我现在有一组大约 20 个 SNP,我想为其获取所有可能的基因型组合。例如,让我们从三个 SNP 及其等位基因开始。 SNP A1 A2 SNP1 A
我正在与 PLINK 一起工作分析全基因组数据。 有谁知道如何去除重复的 SNP? 最佳答案 在 PLINK 1.9 中,使用 --list-duplicate-vars suppress-first
我有一个 SNP 数据集,但没有按照我需要的方式进行编码。而不是仅仅被编码 "rsNUMBER"他们也有芯片分析的信息。例如:GSA-rsNUMBER或 psy-rsNUMBER 有些还有最后的芯片分
这个问题在这里已经有了答案: Find point-to-range overlaps (3 个答案) Finding overlap in ranges with R (6 个答案) dplyr
我有两个 fasta 文件。每个文件包含大鼠或小鼠的短基因组区域序列,具有物种特异性的已知 SNP。 File_1 : >Rat_1 GGTGCCTGTGTATTGCCTCTGTCGACTGCCTTA
我有一个很长的基因数据框和各种形式的 id(例如 OMIM、Ensembl、Genatlas)。我想获得与每个基因相关的所有 SNP 的列表。 (这是 this question 的反面。) 到目前为
给定 8 个样本 (A1-A8) 的以下数据: A1 A2 A3 A4 A5 A6 A7 A8 T T T T T T T C T C T T T T T C A A A G G A A A 其中每一
我正在尝试制作一个程序来识别 CDS包含SNP 。它从两个文件填充两个字典,一个包含 SNP,另一个包含 GFF3文件。从 GFF3 文件填充的字典之一包含 CDS 名称及其作为元组的位置。 一个例子
我想绘制带有 SNP 标记的核型图。 它与函数 segments 一起使用,但我想使用 ggplot2 包来显示优雅的图形。 ggbio: 我用函数 layout_karyogram 检查了 ggbi
我有一个像这样的矩阵: Gene BRCA THYM TGHJ ACC 23 21 7 XTG
我是一名优秀的程序员,十分优秀!