gpt4 book ai didi

r - 一种测试一组外显子/内含子/utr 基因组位置的方法?

转载 作者:行者123 更新时间:2023-12-04 21:43:30 27 4
gpt4 key购买 nike

我想测试一组以下形式的基因组位置:

chr4:154723876-154724615
chr6:139580853-139581090
chr18:30440532-30441569

我想看看它们是否位于 UTR 或内含子或外显子或基因间序列。我不关心这些坐标在哪个基因的内含子(等)中的信息。

我假设每个已知的遗传元件(如外显子)都定义了基因组位置(每个染色体上基因组中的起始位置)。我知道外显子和内含子都是如此,例如 Ensembl 具有基因组中每个外显子的 ID:参见 exons and introns of Amy1 gene in Mus musclulus 的示例.我想用上面我的位置列表查询这些位置的数据库,如果两者之间有重叠(理想情况下我应该能够指定重叠,比如至少 10bp,但如果不是,我没问题) ,我应该受到打击(是的,这个区域在外显子/内含子/)

缺点是我有几千个这样的位置,理想情况下希望一次性查询它们,并且作为输出有一个表,其中每个位置都将被分配“内含子/外显子/utr/intergenic”。生物体是 Mus musculus,位置来自整个基因组。

我现在无法提供我正在尝试做的事情的代码示例,因为我不知道从哪里开始 - 如果我有一个包或任何可以在其上构建的东西将帮助我找到解决方案。

如果我可以在 R 中做到这一点就完美了,但是我不能在 biomaRt 中做到这一点,而且我找不到一个包来做到这一点。我想到了 Galaxy,但考虑到他们不平凡的做事方式和他们产生的奇怪输出,我宁愿坚持使用 R。你知道的魔鬼等等。

帮助将不胜感激。

最佳答案

好的,对不起,我花了这么长时间,但论文已提交,我最终的做法是:

1) 使用 Ensembl 基因注释从 UCSC 表浏览器下载全基因、外显子、内含子和所谓的 3'-UTR 外显子和 5'-UTR 外显子的基因组坐标列表。唯一需要注意的是,您必须分别下载完整基因和其余基因的文件,并且手册没有明确说明“完整基因”是什么。但是如果你将它产生的坐标粘贴到基因组浏览器中,你会看到它是 5' UTR,所有的内含子和轴突以及 3' UTR。

2) 使用 BEDtools 包 (Quinlan and Hall 2010, https://www.ncbi.nlm.nih.gov/pubmed/20110278 ),一个非常好的带有简单示例的手册在这里:http://bedtools.readthedocs.org/en/latest/并使用带 -f 标志的 intersect 命令,让我在坐标和 UCSC 坐标之间设置最小重叠(以 bp 或 % 为单位)。

它就像一个魅力 - 我得到了一个表格文件,每个功能都有重叠。希望这可以帮助。

关于r - 一种测试一组外显子/内含子/utr 基因组位置的方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20094593/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com