r - 如何更改r中的异构双字母

转载作者：行者123 更新时间：2023-12-02 14:12:01

25

4

我有一个数据框:

DF = read.table(text="S01   S02     S03    S04    S05   S06
TT     CC     TT     CT     TT     00
AC     AA     AC     CC     AA     AA
CC     TC     CC     TT     CC     00
CC     AC     CC     AC     AA     CC
GG     00     TG     TT     GG     TG
GG     GA     GG     GA     GG     GG", header=T, stringsAsFactors=F)

我想以更快的方式将所有异构值(双字母)更改为双“00”。预期结果:

S01   S02     S03    S04    S05   S06
TT     CC     TT     00     TT     00
00     AA     00     CC     AA     AA
CC     00     CC     TT     CC     00
CC     00     CC     00     AA     CC
GG     00     00     TT     GG     00
GG     00     GG     00     GG     GG

感谢任何帮助!

最佳答案

我假设这是遗传数据。这使得构建所有异构碱基对变得容易，并使用正则表达式替换它们:

bases <-c("A","C","G","T")
b1 <- rep(bases, 4)
b2 <- rep(bases, each=4)
hetero<- paste0(b1[b1!=b2],b2[b2!=b1])

DF[] <- lapply(DF,gsub, pattern=paste0(hetero,collapse="|"),replacement="00")

或者

m <- as.matrix(DF)
m[m %in% hetero] <- "00"
res <- as.data.frame(m)

基准

因为基准测试很有趣，而且这个线程中有很多不同的解决方案。令人惊讶的结论:差异并不是很大，获胜者是 DavidH(紧随其后的康拉德)。

具有 1000 列和 1000 行的数据框的结果:

Unit: milliseconds
    expr      min       lq     mean   median       uq      max neval   cld
 MrFlick 402.0281 477.4867 494.6892 484.5600 504.6442 592.0486    50    d 
  Heroka 227.1143 298.8655 333.7875 309.4572 375.5734 459.6164    50   c  
 Heroka2 696.2465 710.0094 733.5981 717.8195 775.4891 803.7156    50     e
  DavidH 124.7802 127.9947 137.0511 130.3487 134.9696 210.5570    50 a    
  Konrad 144.0454 214.8844 231.9005 221.9659 291.3668 344.4238    50  b   
 Konrad2 699.5301 711.7724 750.1756 736.2112 787.4504 849.0606    50     e


#Data generated:

b1 <- rep(bases, 4)
b2 <- rep(bases, each=4)
all <- paste0(b1,b2)
largedat <- data.frame(matrix(sample(all,1000000,T),ncol=1000))

#benchmarking code

tests <- microbenchmark(
  MrFlick = MrFlick(largedat),
  Heroka = Heroka (largedat),
  Heroka2= Heroka2(largedat),
  DavidH=DavidH(largedat),
  Konrad = Konrad(largedat),
  Konrad2 = Konrad2(largedat),
  times=50)
#  Functions used:

MrFlick <- function(DF){
  as.data.frame(gsub("^(.)(?!\\1).$","00", as.matrix(DF), perl=T))
}

Heroka <- function(DF){
  bases <-c("A","C","G","T")
  b1 <- rep(bases, 4)
  b2 <- rep(bases, each=4)
  hetero<- paste0(b1[b1!=b2],b2[b2!=b1])
  m <- as.matrix(DF)
  m[m %in% hetero] <- "00"
  res <- as.data.frame(m)
  res
}

Heroka2 <- function(DF){
  DF[] <- lapply(DF,gsub, pattern=paste0(hetero,collapse="|"),replacement="00")
  DF
}

DavidH <- function(DF){
  ex <- expand.grid(c("A","T","C","G"),c("A","T","C","G"))
  ex <- ex[ex[1]!=ex[2],]
  het.combs <- apply(ex,1,function(i) {paste0(i[1],i[2])} )
  map <- setNames( rep("00",length(het.combs)) , het.combs )
  fac.df<- lapply(DF, as.factor)

  fac.df <- lapply(fac.df, function(i){levels(i)[levels(i) %in% names(map)] <- map[levels(i)[levels(i) %in% names(map)]];i } )
  DF <- as.data.frame(fac.df)
}

Konrad <- function(DF){
  bases = c('A', 'C', 'G', 'T')
  homozygous = apply(cbind(bases, bases), 1, paste, collapse = '')

  DF = as.matrix(DF)
  DF[! DF %in% homozygous] = '00'
  DF
}

Konrad2 <-function(DF){
  bases = c('A', 'C', 'G', 'T')
  homozygous = apply(cbind(bases, bases), 1, paste, collapse = '')
  DF = data.frame(lapply(DF, function (x) ifelse(x %in% homozygous, x, '00')))
}

关于r - 如何更改r中的异构双字母，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35656403/

25

4

0

文章推荐： node.js - node-rdkafka 生产者未收到 'ready' 事件

文章推荐： caching - 写入mmio寄存器时如何避免缓存？

文章推荐： log4net - 将 LogManager.GetLogger 与 Unity 结合使用

文章推荐： haskell - 并行树搜索

mysql如何在没有函数的情况下识别纯数字和混合数字/字母？
在 MySQL 数据库中，我在表中有一列既有纯数字也有混合数字/字母。没有模式，如果是纯数字我想区分，标记为true，否则为false。有什么好的方法可以使用吗？我试过: ID REGEXP '^[[
从新数据框的列名中删除 "X"字母
这个问题在这里已经有了答案: Numbers as column names of data frames (2 个回答) Why am I getting X. in my column names
javascript - 字母/数字组合的正则表达式
尝试提出一个正则表达式来捕获诸如 AB1234 或 BA2321 之类的组。本质上需要捕获以 AB 或 BA 开头并后跟 4 位数字的任何内容。目前，我有类似的东西，但这似乎没有考虑数字 (AB|B
javascript - 字母 "pyramid"
var z = []; for(var i = 1; i len) z.push("a".repeat(len-i%len)) console.log(z.join("\n")); 关于jav
仅用于数字、字母、空格和连字符的正则表达式
我需要一个仅用于数字、字母、空格和连字符的正则表达式。像这样的 ^[a-zA-Z0-9]+$ 得到字母和数字，但我需要一个用于上述。这些真的很难理解! 最佳答案这是你需要的: /^[0-9A-Za
PDFBox UTF16 字母
有没有人可以帮助我解决 PDFBox 中的字母问题我正在尝试打印字母“ń”(波兰语字母)并且我得到了类似 þÿ J 的东西。 Dı B R O W 2S0 :K0 3I. 请帮忙! 最佳答案我遇到了
javascript - 视差滚动移动单词/字母
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 5 年前。 Improve this ques
css - 在各种设备上换行的单词/字母
我尽量不让我的文本 block 把一个词分成几个部分并跳到下一行。对于每种设备尺寸，文本都会中断并造成可读性问题。我尝试将 marring-right 与 % 一起使用，但并没有太大帮助。这是我的哈
C++ 字母 -> 数字
这是我第一次向 Stack Overflow 发帖提问。我是编程新手，所以如果我说的奇怪或错误，请原谅。在下面的文件中；它读取目录并将其保存到变量 nAddress 中。然后删除文件扩展名；将文件分
javascript - 在鼠标悬停时重新排列文本/字母
我希望当用户将鼠标悬停在页面上时，我的页面上的某些文本会重新排列字母。例如，将鼠标悬停在“WORK”上，它就会变成“OWKR”。我怀疑需要 js，但我对 js 还是很陌生。下面是我的 html:
java - 如何获取一系列字符？ (字母)
我已经为此工作了几个小时，现在我有点卡住了....请帮助我。我是一个完全的编程障碍。除字母表方法外，所有方法都可以正常工作。它将接收两个字符(大写或小写)并返回由给定 char 值范围组成的字符串。
c++ - 输入中未知数量的字符串(字母)
我想编写一个程序，在输入的同一行中读取 n 个不同化学元素的名称(其中 1 ≤ n ≤ 17 和 n 也在输入中读取)(名称由空格分开)。化学元素的名称应存储在不同的字符串中以供进一步使用。由于 n
jquery - 在悬停时显示另一个文本/字母
我想隐藏一个字母，并在链接中显示另一个字母，当然，悬停字母的样式不同。例如: 这是一个... ...normal link. 这是一个... ...hovêrêd lînk. 如何实现？谢谢。编辑:
css - 字母 i 上的替代色点
我一直被这个相当愚蠢的想法所挑战。所以我可以用 Blabla[span class=superI]i[/span]rest 替换所有出现的“i”:) 我的想法是在真正的 i“后面”添加一个额外的(红
支持中文、字母、数字的PHP验证码
本文以实例演示5种验证码，并介绍生成验证码的函数。PHP生成验证码的原理：通过GD库，生成一张带验证码的图片，并将验证码保存在Session中。 ?
JS正则表达式必须包含数字、字母、特殊字符
下面给大家介绍下JS正则表达式必须包含数字、字母、特殊字符 js正则表达式要求: 1. 必须包含数字、英文字母、特殊符号且大于等于8位 2. 特殊符号包括: ~!@#$%^&* 正
php - preg_match 字母不仅是字母？
我在这里和网上四处寻找解决方案。问题是我只想接受信件。但是，如果我至少输入一个字母，无论是否有符号或数字，它都会接受。如何获得仅封信？ if (!preg_match("/[a-zA-Z]/",
history - 字母 O 被认为有害？
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 去年关闭。 Improve th
将(字母)数字字段正确读入 R
制表符分隔的文本文件，实际上是数据库表的导出(使用 bcp)，具有以下形式(前 5 列): 102 1 01 e113c 3224.96 12 102 1 01 e185
php - 循环数据数组并打印 'incrementing' 字母
我需要循环遍历数据数组并为每个数组值打印一个“递增”字母。我知道我可以做到这一点: $array = array(11, 33, 44, 98, 1, 3, 2, 9, 66, 21, 45); //

首页

博学

6Ren·AI

商城

r - 如何更改r中的异构双字母

基准