r - 在 R 中打乱字符串元素的更好方法-6ren

r - 在 R 中打乱字符串元素的更好方法

转载作者：行者123 更新时间：2023-12-02 06:51:33

27

4

我必须打乱字符串的元素。我写了一段代码:

sequ <- "GCTTCG"
set.seed(2017)
i <- sample(1:nchar(sequ))
separate.seq.letters <- unlist(strsplit(sequ, ""))
paste(separate.seq.letters[i], collapse = "")
[1] "GTCGTC"

此代码将元素打乱一次。主要问题是有没有更好(更有效)的方法来做到这一点？对于非常长的序列和大量的洗牌 strsplit , paste命令需要一些额外的时间。

最佳答案

利用Rcpp在 C 中处理的包可能是最快的。

下面我对迄今为止建议的一些方法进行了一些基准测试，包括:

问题中的方法

@akrun 评论中的方法

使用 BIOSTRINGS 包的方法，由@knb 建议

使用 @Rich 建议的 STRINGI 包的方法

自定义 RCPP 函数，基于 this post .

除了 stringi 函数，下面是封装到函数中的其他函数用于测试:

f_question <- function(s) {
  i <- sample(1:nchar(s))
  separate.seq.letters <- unlist(strsplit(s, ""))
  paste(separate.seq.letters[i], collapse = "")
}

f_comment <- function(s) {
  s1 <- unlist(strsplit(s, ""))
  paste(s1[sample(nchar(s))], collapse="")
}

library(Biostrings)
f_biostring <- function(s) {
  probes <- DNAStringSet(s)
  lapply(probes, sample)
}

Rcpp::cppFunction(
  'std::string shuffleString(std::string s) {
    int x = s.length();
    for (int y = x; y > 0; y--) { 
      int pos = rand()%x;
      char tmp = s[y-1];
      s[y-1] = s[pos];
      s[pos] = tmp;
    }
    return s;
  }'
)

为了测试，加载库和写入函数以生成长度为 n 的序列:

library(microbenchmark)
library(tidyr)
library(ggplot2)

generate_string <- function(n) {
  paste(sample(c("A", "C", "G", "T"), n, replace = TRUE), collapse = "")
}

sequ <- generate_string(10)

# Test example....

sequ
#> [1] "TTATCAAGGC"

f_question(sequ)
#> [1] "CATGGTACAT"
f_comment(sequ)
#> [1] "GATTATAGCC"
f_biostring(sequ)
#> [[1]]
#>   10-letter "DNAString" instance
#> seq: TAGATCGCAT
shuffleString(sequ)
#> [1] "GATTAATCGC"
stringi::stri_rand_shuffle(sequ)
#> [1] "GAAGTCCTTA"

用小 n (10 - 100) 测试所有函数:

ns <- seq(10, 100, by = 10)
times <- sapply(ns, function(n) {
  string <- generate_string(n)

  op <- microbenchmark(
    QUESTION     = f_question(string),
    COMMENT      = f_comment(string),
    BIOSTRING    = f_biostring(string),
    RCPP         = shuffleString(string),
    STRINGI      = stringi::stri_rand_shuffle(string)
  )
  by(op$time, op$expr, function(t) mean(t) / 1000)
})
times <- t(times)
times <- as.data.frame(cbind(times, n = ns))

times <- gather(times, -n, key = "fun", value = "time")
pd <- position_dodge(width = 0.2)
ggplot(times, aes(x = n, y = time, group = fun, color = fun)) +
  geom_point(position = pd) +
  geom_line(position = pd) +
  theme_bw()

Biostrings 方法非常缓慢。

删除它并移动到 100 - 1000(代码保持不变，除了 ns ):

基于 R 的函数(来自问题和评论)具有可比性，但落后了。

删除这些并移动到 1000 - 10000:

看起来自定义 Rcpp 函数是赢家，特别是随着字符串长度的增长。但是，如果在这些之间进行选择，请考虑 stringi 函数， stri_rand_shuffle , 将更加健壮(例如，经过更好的测试和设计以处理极端情况)。

关于r - 在 R 中打乱字符串元素的更好方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43033178/

27

4

0

文章推荐： haskell - 如何仅为 Floating 创建一个实例？

文章推荐： Powershell:计划任务在后台而不是前台运行脚本

文章推荐： docker - 如何在docker中脱离docker？

文章推荐： SQL 问题 - CASE WHEN

jquery - 打乱 DOM
我正在使用下面的随机播放脚本来随机化网站上某些 div 的顺序。 http://james.padolsey.com/javascript/shuffling-the-dom/ 该脚本有效，但仅随机化
java - 打乱 HashMap 中的值
我想打乱 HashMap 中的值。我有以下类型的 HashMap Map > trainDataSet = new HashMap>(); 我想打乱 map 中的值。我该怎么做呢？以下是我的尝试:
java - 打乱 Java 流对象列表
这个问题已经有答案了: Shuffle a list of integers with Java 8 Streams API (8 个回答) 已关闭 3 年前。我有一个单词列表:List words
mysql - # 打乱 SQL 查询的符号
我必须使用 SQL SELECT 语句返回一些结果。我需要返回两条关于员工的信息，Employee# 和 EmployeeName。我试过了 SELECT Employee#, EmployeeNa
html - 打印被 bootstrap 打乱
我有一个网页，我正在尝试打印它。我正在使用引导导航栏。问题是，当我使用 bootstarp 导航栏时，打印预览没有任何意义。我在页面中看到了代码行而不是实际内容。只有当我将引用添加到 bootstra
c - 打乱 SSE 寄存器中的偶数和奇数值
我用 16 位值加载两个 SSE 128 位寄存器。这些值按以下顺序排列: src[0] = [E_3, O_3, E_2, O_2, E_1, O_1, E_0, O_0] src[1] = [E_
javascript - 将所有具有相同类别的 DIVS 打乱
我需要做的是:原始状态: 洗牌后: 第一个 div 中的 Divs 留在那里但会被打乱，同样的情况也会发生在具有相同类的第二个 div 中。要在特定的 div
javascript - 打乱 HTML 列表元素的顺序
我有一个列表: milk butter eggs orange juice bananas 如何使用 javascript 随机重新排序列表项？最佳答案
objective-c - 打乱 N 个数字的数组并转换回整数
我有一个大小为 n 的 NSMutableArray urlArray，我想从数组中的元素总数中随机选择其中的 4 个 URL。但是我不想直接打乱 urlArray，我更喜欢制作一个“indexAr
c - 打乱 5 元素数组以每次获得单独的顺序 C
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 5 年前。 Improve this ques
java - 打乱 ArrayList 直到满足条件 (Java)
首先，我的母语不是英语，所以请原谅我的一些错误。我想对 ArrayList 进行洗牌(没问题)，但是洗牌后列表必须满足某些条件。我的第一个方法是创建 if 语句，并在每次为 true 时进行洗牌。但
c++ - 打乱 __m256i vector 的元素
我想打乱 __m256i vector 的元素。并且有一个内在的 _mm256_shuffle_epi8 做类似的事情，但它不执行跨车道洗牌。如何使用 AVX2 指令来实现？最佳答案有一种方法可
objective-c - 打乱 NSString 顺序的快速方法？
有谁知道改变现有 NSString 或 NSMutableString 字符顺序的现有方法吗？无论如何，我有一个解决方法，但如果有一个现有的方法，那就太好了。例如，给定字符串@"HORSE"，一个方
objective-c - 打乱 NSMutableArray : calling the method
我是 Objective-C 新手，通过反复试验来学习!如果这个问题有点幼稚，请原谅我。我创建了一组图像，需要对它们进行随机播放。我已经使用了这里给出的建议: What's the Best Way
sql-server - 打乱 SQL Server 中的列？
我们有一个网络应用程序，希望向潜在客户演示，但我们最好的方法是使用现有数据，以获得完整的体验。当然，我们不想使用应用程序中可见的实际客户名称或地址等来执行此操作。 SQL Server 中有没有一种简
javascript - 缩小/打乱 Django js 的简单方法
有一个简单的方法来缩小和/或混淆 JS，它存在于我的 django 模板中？我还在js中使用模板变量和模板标签，因此，标准的uglifyjs或类似的不符合我最初的要求。有什么事情要做吗？最佳答案
java - 使用 ArrayList 打乱 xml 布局时出错
我是新用户 ArrayList 。我不明白。如果我使用int[]作为ArrayList项目有错误: The method put(int) is undefined for the type Arr
excel - 在 Excel 中对行/列中的值重新排序/打乱
是否可以随机打乱 Excel 工作表中行或列中的值。有没有相关的函数/宏？我该怎么做？ -广告。最佳答案嗯...就像简单的解决方案一样，无需编程。例如，您有一列数据 (A): 23 78 12 7
ruby - 如何在 Ruby 中随机排序(打乱)数组？
我想打乱我的数组项。像这样: [1,2,3,4].scramble => [2,1,3,4] [1,2,3,4].scramble => [3,1,2,4] [1,2,3,4].scramble =>
android - 自定义 ArrayAdapter 使用 NullPointerException 打乱 View
我目前正在为 Android 开发内容创建应用程序。它的主要目的是让用户生成一个包含文本和图像条目的列表(最后由 EditText 和 ImageView 表示)。我通过使用 ViewHolder

首页

博学

6Ren·AI

商城

r - 在 R 中打乱字符串元素的更好方法