gpt4 book ai didi

regex - 清理数据框中的基因名称

转载 作者:行者123 更新时间:2023-12-04 22:41:07 25 4
gpt4 key购买 nike

我有一个如下所示的 R 数据框:

       Gene Symbol       Prom 1       Prom 2    Prom 3
1 Gm16088 // Gm16088 7.168819 7.410547 7.634662
2 Gm26206 7.006416 6.824151 6.941721
3 Gm1992 // Gm1992 6.750240 6.591182 6.479798
4 Gm10568 4.390371 4.496734 4.672061
5 Gm22307 13.196217 13.157953 13.601210
6 Gm16041 // Gm16041 5.146015 5.450036 5.388205
7 Gm17101 // Gm17101 6.434086 6.752058 6.603427

在基因符号列中,我有一些基因符号在数据帧的同一单元格内重复多次。在某些行中,基因符号重复了一百次。有没有办法解决这个问题,以便有这样的行:

Gene Symbol       Prom 1       Prom 2    Prom 3
1 Gm16088 7.168819 7.410547 7.634662

不要像这样:

Gene Symbol       Prom 1       Prom 2    Prom 3
1 Gm16088 // Gm16088 7.168819 7.410547 7.634662

最佳答案

您可以尝试使用gsub():

x <- "Gm16088  // Gm16088"

> gsub("\\s*//.*", "", x)
[1] "Gm16088"

在您的实际代码中,您可以将 x 替换为:

df$`Gene Symbol`

其中df是数据框的名称。

关于regex - 清理数据框中的基因名称,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38197614/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com