r - 数据框列的组合和排列-6ren

r - 数据框列的组合和排列

转载作者：塔克拉玛干更新时间：2023-11-03 05:16:08

24

4

我需要一些帮助来计算数据框列的所有组合和排列。我的 df 看起来像这样(真正的有 40+ 列和 15000+ 行)

ID      A   B   C   D
ID_1    NA  1   NA  1
ID_2    1   1   1   1
ID_3    1   1   1   1
ID_4    NA  1   1   NA
ID_5    1   1   1   1
ID_6    1   NA  NA  1
ID_7    1   1   1   1
ID_8    1   NA  NA  NA
ID_9    1   1   1   1
ID_10   1   1   1   1
ID_11   1   1   1   1
ID_12   NA  NA  1   1
ID_13   NA  NA  1   NA
ID_14   1   1   1   NA

第一列包含唯一 ID，第 2:40+ 列包含 1(存在)或 NA(不存在)。

现在我需要知道每个组合和排列“存在”多少个 IDAB, AC, AD, BC.....ABC, ABD.....ABCDE, ABCDF....等等。

使用 combinat 我可以轻松检索所有可能的组合/排列(假设一个 4 列数据框)

for (i in 1:3){
  combn(4, i)
next}

但是，我如何使用它来计算我需要的内容并在数据框中获得结果

1   2   3   4
A   AB  ABC ABCD
B   AC  ABD na
C   AD  ACD na
D   BC  BCD na
na  BD  na  na
na  CD  na  na

最佳答案

好吧，我想我找到了解决这个问题的方法，但速度非常慢(在 20 列和 18000 行的数据集上超过 12 小时)，因此欢迎提出任何改进建议。

假设一个初始数据表，其中“ID”列已被删除，看起来像这样

A   B   C   D   E   F   G   H
1   1   1   1   1   1   1   1
1   1   1   1   1   1   1   NA
1   1   1   1   1   1   1   1
1   1   1   1   1   NA  NA  NA
1   1   NA  1   1   1   1   1
1   1   1   1   1   1   1   1
1   1   1   1   1   1   1   1
1   1   1   1   1   1   1   NA
NA  1   1   NA  1   1   1   1
1   1   1   1   1   1   1   1
1   1   1   1   1   1   NA  1
NA  1   1   1   1   1   1   1
1   1   1   1   1   1   1   1
1   1   1   1   NA  1   1   1
1   1   1   1   1   1   1   1
1   1   NA  NA  1   1   1   1
1   1   1   1   1   1   1   1
1   1   1   1   1   1   1   1
1   NA  1   1   1   1   1   1
1   1   1   1   1   1   1   1
1   1   1   1   1   1   1   NA
1   1   1   1   1   1   1   1
NA  1   1   1   1   1   1   1
1   1   1   1   1   1   1   1
1   1   1   1   1   NA  1   1
1   1   1   1   1   1   1   1
1   NA  NA  1   1   1   1   1
1   1   1   1   1   1   1   1
1   1   1   1   1   1   1   1
1   1   1   1   1   1   NA  1
1   1   1   1   NA  1   NA  1
1   1   NA  1   1   1   NA  1
1   1   1   1   1   1   1   1
1   1   1   1   1   1   1   1
1   1   1   1   1   1   1   NA
1   1   1   1   1   1   1   NA
1   1   1   NA  1   1   1   NA
1   1   1   1   1   1   1   1
NA  NA  NA  NA  NA  NA  NA  1

我首先以这种方式使用 combn 计算所有可能的组合

combi <- as.data.frame(t(colnames(dt)))

for (i in 2:ncol(dt)){
  combi <- cbind.fill(combi, as.data.frame(combn(colnames(dt), i)),  fill = NA)
next}

然后我为最终结果创建一个表

final <- data.frame(group = apply(combi, 2 , function(x) length(which(x != "" ))) , value = c(NA))

最后，我计算每个组合中存在的 ID 数量

for (i in 1:ncol(combi)){
  final[i, 2] <- nrow(dt[ , c(which(colnames(dt) %in% c(as.character(na.omit(combi[, i]))))), with = FALSE][!apply(dt[ , c(which(colnames(dt) %in% c(as.character(na.omit(combi[, i]))))), with = FALSE] == "", 1, all),])
next}

为了得到我想要的最终结果我就这样做

result <- subset(final, group == 1)[,2]
for (i in 2:max(final[, 1])){
  result <- cbind.fill(result, subset(final, group == i)[,2],  fill = NA)
next}

组合表 combi 的生成和 final 的计算是瓶颈，它适用于小数据，但正如我所说，它非常慢大数据集，即使是在一台牛逼的机器上也是如此。

关于r - 数据框列的组合和排列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46002876/

24

4

0

文章推荐： java - WebSocket 握手错误 : Unexpected response code: 302

文章推荐： algorithm - 处理边界框内移动点接触和包含的数据结构？

文章推荐： c++ - 这个检测循环链表的函数的时间复杂度是多少？

F# 排列
我需要在给定的列表上生成排列。我设法这样做 let rec Permute (final, arr) = if List.length arr > 0 then for x i
Java 排列
我正在尝试运行我的代码，以便它打印循环排列，尽管我目前只能让它执行第一个排列。它正确运行到我标记的点，但我看不出出了什么问题。我认为 while 循环中没有中断，但我不确定。确实需要一些帮助。 pac
JavaScript 排列
我正在尝试计算不包含连续字母的排列数。我的代码通过了像“aabb”(答案:8)和“aab”(答案:2)这样的测试，但没有通过像“abcdefa”这样的情况(我的答案:2520；正确答案:3600)。这
【排列】（笛卡尔树上dp？）
比赛在这 B.排列前言：笛卡尔树上 dp？这名字很妙啊，但其实不需要笛卡尔树，只不过利用了笛卡尔树的定义一个性质：我们设一个区间 \([l,r]\) 中的最大值的位置为 \(pos\)，
r - 使用条件对字符列进行排序/排列
我正在尝试使用 dplyr 的 arrange 根据条件对字符串进行排序。我想在一列上排列，但如果第二列等于一个值，则按升序排列，如果第二列等于另一个值，则按降序排列。我发现了几个类似的问题(其中一
r - 排列()不识别列名参数
在 R 中，我使用 dplyr更具体地说 arrange() . 不知何故 arrange功能没有按预期工作。在下面的示例中，我首先存储列的名称，然后将此变量作为参数传递给名为“my_functio
qml - GridLayout 排列
以下是我的 main.qml : Window { id: window visible: true width: 800 height: 480 title:
javascript - 找到两个数组的可用组合(排列？)
很难用谷歌搜索这个问题，因为我不确定这些概念叫什么，并且所有“两个数组/组的组合”SO 帖子都没有给我我期望的输出。数组示例: var array1 = ['Bob', 'Tina']; var a
使用两个列表的 Scala 排列
实现以下目标的最佳方法是什么？我有两个列表: val l1 = List("a", "b") val l2 = List(1, 2) 我想生成这个: List ( List(('a', 1)
使用递归的 JavaScript 排列
我知道互联网上有很多针对我的具体问题的解决方案，但我一直在尝试以特定的方式解决它，但它不起作用，我真的无法理解出了什么问题。就我而言，我只想打印排列。这是我的代码: a = "abc"; functi
具有输出列表长度的 Haskell 排列
我有这样的代码来创建排列: --unique permutation perm :: [t] -> [[t]] perm [] = [[]] perm (x:xs) = [(y:zs) | (y,ys
math - 如何高效找到nPr(排列)？
有没有比使用基本公式 n!/(n-r)! 更好的方法？就像我们对 nCr(组合) nCr = (n-l)Cr + (n-1)C(r-1) 一样？最佳答案这样怎么样:nPr = (n−1)Pr +
r - 来自不同集合的混合组合/排列
此问答的动机是 How to build permutation with some conditions in R . 到目前为止，已经有一些很好的 R 软件包，例如 RcppAlgos 和 arr
Erlang 列表理解、排列
我正在修改一本书中的排列示例。以下代码按预期工作。 perms([]) -> [[]]; perms(L) -> [[H|T] || H []; 它返回一个空列表。当我替换时，我得到了这个。
Java 排列 2
大约一周前，我问了一个关于帮助我解决这个问题的问题 Java permutations ，打印排列方法有问题。我已经整理了我的代码，并有一个现在可以工作的工作示例，尽管如果 5 位于数组中的第五个位置
python - 如何计算具有重复元素的列表的排列(排列)
我有一个包含重复元素的列表，即orig = [1,1,1,2,2,3]。我想创建一个derangement b = f(orig)，使得 b 中的每个位置值都与 orig 中的值不同: b[i] !
具有最少随机数的 Java 排列
我想生成一个 array a 的排列而且我不想使用实用功能，例如 java.util.Collections() . 排列应该是随机的，并且每个排列都应该有可能发生 - 但不需要均等分布的概率。以下
java - 排列、递归
我有一个作业:用户输入一个字符串，例如 ABCD，程序必须给出所有排列。我不希望整个代码只是一个提示。这是我到目前为止在他们那里得到的，我没有得到任何实现。以ABCD为例: 在本例中获取字符串长度的
Python Itertools 排列
我目前正在编写一个使用 itertools 的程序，其中的一部分似乎无法正常运行。我希望确定排列函数输出列表长度的输入等于它生成输出的列表长度。换句话说，我有 import itertools b =
python - Itertools 排列
我有一个列表 x=[1,2,3,4,5] 并且想查看这个列表的不同排列，一次取两个数字。 x=[1,2,3,4,5] from itertools import permutations y=list

首页

博学

6Ren·AI

商城

r - 数据框列的组合和排列