gpt4 book ai didi

r - 根据 SNP 位置和基因开始/结束坐标从另一个数据框中分配基因名称

转载 作者:行者123 更新时间:2023-12-01 14:04:03 25 4
gpt4 key购买 nike

<分区>

我有两个数据框:一个包含 SNP 列表及其位置,另一个包含基因列表及其开始和结束坐标。 使用 dplyr,我想在 SNP 数据框中添加一列,其中包含每个 SNP 所属的基因名称(即 SNP 的位置在同一条染色体上,并且介于基因的开始/结束坐标,包括在内)。

如果 SNP 不属于任何基因坐标,它应该在基因列中显示为“NA”。 SNP 和基因之间的染色体数目必须匹配。例如,即使第二个 SNP 的位置落在 Gene4 的起始/结束坐标内,这也不匹配,因为它们位于不同的染色体上。

SNP 数据框:

CHR  POS  REF  ALT
01 5 C T
01 10 G A
02 5 G T
02 15 C A
02 20 T C
03 10 A G
03 20 C T

基因数据框:

CHR  START  END  GENE_NAME
01 2 8 Gene1
01 12 20 Gene2
01 25 30 Gene3
02 10 18 Gene4
02 25 35 Gene5
03 5 15 Gene6

期望的输出:

CHR  POS  REF  ALT  GENE_NAME
01 5 C T Gene1
01 10 G A NA
02 5 G T NA
02 15 C A Gene4
02 20 T C NA
03 10 A G Gene6
03 20 C T NA

同样,我想使用 dplyr 来完成此操作。在此先感谢您的帮助!

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com