E" "p.286_287RR>R" "p.57_58KK>K"-6ren">
gpt4 book ai didi

r - 在 R 中将特定字符串与 HGVS 格式分开

转载 作者:行者123 更新时间:2023-12-04 11:18:40 27 4
gpt4 key购买 nike

我试图从 HGVS 短突变格式中分离出“>”符号前后的特定字符串,示例如下:

"p.1258_1259EE>E"       "p.286_287RR>R"         "p.57_58KK>K"           "p.287_288AA>A"

我想要实现的是从第一个字符串“p.1258_1259EE>E”说起,我可以得到以下内容:

starting_position    end_position    initial_aa    mutant_aa
1258 1259 EE E
286 287 RR R
57 58 KK K

似乎比我最初想象的要复杂一些。希望这里有人可以提供帮助。谢谢童童

最佳答案

如果模式相同,base R 选项将使用 sub 格式化字符串以引入通用的 sep 并使用它在 read.csv

df1 <- read.csv(text= sub("^[^0-9]+([0-9]+)_([0-9]+)([A-Z]+)>([A-Z]+)", 
"\\1,\\2,\\3,\\4", v1), header = FALSE, stringsAsFactors = FALSE,
col.names = c('starting_position', 'end_position', 'initial_aa', 'mutant_aa'))
df1
# starting_position end_position initial_aa mutant_aa
#1 1258 1259 EE E
#2 286 287 RR R
#3 57 58 KK K
#4 287 288 AA A

数据

v1 <- c("p.1258_1259EE>E", "p.286_287RR>R", "p.57_58KK>K",  "p.287_288AA>A")

关于r - 在 R 中将特定字符串与 HGVS 格式分开,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50939268/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com