作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个如下所示的 R 数据框:
Gene Symbol Prom 1 Prom 2 Prom 3
1 Gm16088 // Gm16088 7.168819 7.410547 7.634662
2 Gm26206 7.006416 6.824151 6.941721
3 Gm1992 // Gm1992 6.750240 6.591182 6.479798
4 Gm10568 4.390371 4.496734 4.672061
5 Gm22307 13.196217 13.157953 13.601210
6 Gm16041 // Gm16041 5.146015 5.450036 5.388205
7 Gm17101 // Gm17101 6.434086 6.752058 6.603427
在基因符号列中,我有一些基因符号在数据帧的同一单元格内重复多次。在某些行中,基因符号重复了一百次。有没有办法解决这个问题,以便有这样的行:
Gene Symbol Prom 1 Prom 2 Prom 3
1 Gm16088 7.168819 7.410547 7.634662
不要像这样:
Gene Symbol Prom 1 Prom 2 Prom 3
1 Gm16088 // Gm16088 7.168819 7.410547 7.634662
最佳答案
您可以尝试使用gsub()
:
x <- "Gm16088 // Gm16088"
> gsub("\\s*//.*", "", x)
[1] "Gm16088"
在您的实际代码中,您可以将 x
替换为:
df$`Gene Symbol`
其中df
是数据框的名称。
关于regex - 清理数据框中的基因名称,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38197614/
以下问题专门针对生物技术应用,但可以说明其他领域类似问题的一般原则。这是一个 NP 难问题,可能与旅行商问题有关,我很好奇可以使用哪些算法来得出解决方案。 生物背景简介:蛋白质由 20 种氨基酸组成。
我是一名优秀的程序员,十分优秀!