R-数据框一列中的值在其他列中出现了多少次？ (最好不使用 for 循环)-6ren

R-数据框一列中的值在其他列中出现了多少次？ (最好不使用 for 循环)

转载作者：行者123 更新时间：2023-12-02 04:37:11

我已经为这个问题苦苦挣扎了一段时间，所以我希望有人能帮我找到一个更省时的解决方案。所以，我有一个像这样的 ID 数据框:

IDinsurer<-c(rep(11,3),rep(12,2),rep(11,2),rep(13,2),11)
ClaimFileNum<-c(rep('AA',3),rep('BB',2),rep('CC',2),rep('DD',2),'EE')
IDdriver<-c(rep(11,3),rep(12,2),rep(21,2),rep(13,2),11)
IDclaimant<-c(31,11,32,12,33,11,34,13,11,11)
IDclaimdriver<-c(41,11,32,12,11,21,34,13,12,11)
dt<-data.frame(ClaimFileNum,IDinsurer,IDdriver,IDclaimant,IDclaimdriver)

   ClaimFileNum IDinsurer IDdriver IDclaimant IDclaimdriver
1            AA        11       11         31            41
2            AA        11       11         11            11
3            AA        11       11         32            32
4            BB        12       12         12            12
5            BB        12       12         33            11
6            CC        11       21         11            21
7            CC        11       21         34            34
8            DD        13       13         13            13
9            DD        13       13         11            12
10           EE        11       11         11            11

我想做的是计算个人 IDinsurer 在其他角色(即不作为保险公司)中出现的不同 claim 文件 (ClaimFileNum) 的数量。因此，对于每个 IDinsurer，我只想要 claim 文件的数量，他的 ID 出现在 IDdriver、IDclaimant 或 IDclaimsriver 中，同时他不是给定 claim 文件的 IDinsurer。例如，IDinsurer==11 与所有 ClaimFileNums 一起出现，但仅在“BB”和“DD”上他不是 IDinsurer，这意味着我希望我的程序返回 2。所以这就是我希望最终数据框的样子:

   ClaimFileNum IDinsurer IDdriver IDclaimant IDclaimdriver N
1            AA        11       11         31            41 2
2            AA        11       11         11            11 2
3            AA        11       11         32            32 2
4            BB        12       12         12            12 1
5            BB        12       12         33            11 1
6            CC        11       21         11            21 2
7            CC        11       21         34            34 2
8            DD        13       13         13            13 0
9            DD        13       13         11            12 0
10           AA        11       11         11            11 2

所以这就是我到目前为止能够想出的:

1)对于其他三个角色(IDdriver、IDclaimant、IDclaimsdriver)中的每一个，我单独计算了一个新列，其中包含数字，显示特定 ID 出现在该角色中的 claim 文件数量，不包括 claim 文件的情况，在这些情况下，他们也是保险公司(然而，对于 IDclaimsdriver，排除 ID 与 IDclaimant 或 IDdriver 匹配的情况更有意义)。这是 IDdriver 计数的代码:

count.duplicates <- function(dt){                                 #removing duplicated columns and adding a column with the frequency of duplications
  x <- do.call('paste', c(dt[,c("ClaimFileNum","IDdriver")], sep = '\r'))
  ox <- order(x)
  rl <- rle(x[ox])
  cbind(dt[ox[cumsum(rl$lengths)],,drop=FALSE],count = rl$lengths)

}
dt<-count.duplicates(dt)
dt<-data.table(dt)
dt[,same:=ifelse(dt$IDinsurer==dt$IDdriver,0,1)]
dt[,N_IDdriver:=sum(same,na.rm = T),by=list(IDdriver)]
dt[,same:=NULL]

setorder(dt,ClaimFileNum)
dt<-expandRows(dt,"count")
dt<-as.data.frame(dt)

这是我的示例在所有三个计数之后的输出:

       ClaimFileNum IDinsurer IDdriver IDclaimant IDclaimdriver N_IDdriver N_IDclaimant N_IDclaimdriver
1            AA        11       11         31            41          0            1               1
2            AA        11       11         11            11          0            1               1
3            AA        11       11         32            32          0            1               0
4            BB        12       12         12            12          0            0               1
5            BB        12       12         33            11          0            1               1
6            CC        11       21         11            21          1            1               0
7            CC        11       21         34            34          1            1               0
8            DD        13       13         13            13          0            0               0
9            DD        13       13         11            12          0            1               1
10           EE        11       11         11            11          0            1               1

2) 我现在首先在整个 IDinsurer 列上使用 for 循环，以使用匹配函数检查 insurerID[i] 是否出现在其他三个角色 ID 中的任何一个中。如果找到匹配项，我只需将相应 N_ 列中的计数添加到总计数中。这是我的 for 循环:

total<-length(dt$IDinsurer)
for(i in 1:total) {
  j<-match(dt$IDinsurer[i],dt$IDdriver,nomatch=0);
  k<-match(dt$IDinsurer[i],dt$IDclaimant,nomatch=0);
  l<-match(dt$IDinsurer[i],dt$IDclaimdriver,nomatch=0);
  dt$N[i]<-ifelse(j==0,0,N_IDdriver[j])+ifelse(k==0,0,N_IDclaimant[k])+ifelse(l==0,0,N_IDclaimdriver[l]);
}

虽然这种方法为我提供了我需要的所有信息，但不幸的是它非常缓慢，尤其是在像我必须处理的那样有超过 200 万个案例的数据集上。我确信一定有一个更优雅的解决方案，我一直在试图弄清楚如何使用一些更高效的工具(如 data.table)来实现它，但我就是无法掌握它。

编辑:我决定在我的例子中尝试我的问题的两个答案，并将它们与我的尝试进行比较，所以这里是计算时间:Thom Quinn 的 for 循环:0.15 秒，我的 for 循环:0.25 秒，bounyball 的方法:0.35 秒。

在 1,042,000 行数据集上使用我的循环只用了不到 10 个小时。

最佳答案

Match 是出了名的慢，在这种情况下不需要。事实上，你已经用英语解决了这个问题，你只需要将它翻译成计算机行话!

So for each IDinsurer I only want the count of claim files, where his ID appeared in either IDdriver, IDclaimant or IDclaimdriver while at the same time he isn't the IDinsurer of the given claimfile

所以，让我们这样做吧。在伪代码中:

for each unique IDinsurer:
  count when IDdriver OR IDclaimant OR IDclaimdriver AND NOT IDinsurer

在 R 中，这是:

for(i in unique(dt$IDinsurer)){
  index <- dt$IDinsurer != i & (dt$IDdriver == i | dt$IDclaimant == i | dt$IDclaimdriver == i)
  dt[dt$IDinsurer == i, "N"] <- sum(index)
}

关于R-数据框一列中的值在其他列中出现了多少次？ (最好不使用 for 循环)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41229105/

文章推荐： r - `freeParam` 拟合正常 copula 时出错 [R]

文章推荐： facebook - 如何在我的网站上嵌入 Facebook 直播(视频)网址

文章推荐： soundcloud - 无法在 SoundCloud 应用仪表板中编辑 redirect_uri

iphone - 出现 Storyboard之前的选项卡栏项目标题
我的应用程序从一个有 5 个选项卡的选项卡栏 Controller 开始。一开始，第一个出现了它的名字，但其他四个没有名字，直到我点击它们。然后根据用户使用的语言显示名称。如何在选项卡栏出现之前设置选
javascript - 为什么我的数据表没有在函数内部使用 $.each 出现？
我有嵌套数组 json 对象(第 1 层、第 2 层和第 3 层)。我的问题是数据表没有出现。任何相关的 CDN 均已导入。该表仅显示部分。我引用了很多网站，但都没有解决我的问题。之前我使用标准表来
swift - PFLoginViewController 出现
我正在尝试设置要显示的 Parse PFLoginViewController。这是我的一个 View Controller 的类。 import UIKit import Parse import
java - 图形未绘制/出现
我遇到了这个问题，我绘制的对象没有出现在 GUI 中。我知道它正在被处理，因为数据被推送到日志文件。但是，图形没有出现。这是我的一些代码: public static void main(Strin
java - 出现 - TreeMap
我有一个树状图，其中包含出现这样的词...... TreeMap occurrence = new TreeMap (); 字符串 = 单词整数 = 出现次数。我如何获得最大出现次数 - 整数，
java - 出现 do-while 错误
因此，我提示用户输入变量。如果变量小于 0 且大于 10。如果用户输入 10，我想要求用户再次输入数字。我问时间的时候输入4，它说你输入错误。但在第二次尝试时效果很好。例如:如果我输入 25，它会打印
出现 CSS 溢出滚动条但不工作
我已经用 css overflow 属性做了一个例子。在这个例子中我遇到了一个溢出滚动的问题。滚动条出现了，但没有工作意味着每当将光标移动到滚动条时，在这个滚动条不活动的时间。我对此一无所知，所以请帮
Javascript 出现/消失对象
我现在正在做一个元素。当您单击一个元素时，会出现以下信息，我想知道如何在您单击下一个元素而不重新单击同一元素时使其消失....例如，我的元素中有披萨，我想单击肉披萨看到浇头然后点击奶酪披萨看到浇头和肉
python简单路由器url匹配器，如何重新匹配第一个 "/"出现
我有一个路由器模块，它将主题与正则表达式进行比较，并将出现的事件与一致的键掩码链接起来。 (它是一个简单的 url 路由过滤，如 symfony http://symfony.com/doc/curr
出现 PHP 错误但代码仍然正确执行
这个问题在这里已经有了答案: 9年前关闭。 Possible Duplicate: mysql_fetch_array() expects parameter 1 to be resource, bo
ios - 出现 View 时工具栏跳到位
我在底部有一个带有工具栏的 View ，我正在使用 NavigationLink 导航到该 View 。但是当 View 出现时，工具栏显示得有点太低了。大约半秒钟后，它突然跳到位。它只会在应用程序启
SwiftUI 出现 AVAudioPlayer 播放多次
我试图在我的应用程序上为背景音乐添加一个 AVAudioPlayer，我正在主屏幕上启动播放器，尝试在应用程序打开时开始播放但出现意外行为... 它播放并立即不断创建新玩家并播放这些玩家，因此同时播放
Haskell，不知道为什么输入 ‘if’ * 出现*解析错误
这是获取一个数字，获取其阶乘并将其加倍，但是由于基本情况，如果您输入 0，它会给出 2 作为答案，因此为了绕过它，我使用了 if 语句，但收到错误输入“if”时解析错误。如果你们能提供帮助，我真的很感
java - 出现 DeadObjectException 并且应用程序崩溃
暂停期间抛出异常 android.os.DeadObjectException 在 android.os.BinderProxy.transactNative( native 方法) 在 androi
java - 出现 NoSuchElementException 并且我找不到解决方法
我已经为猜词游戏编写了一些代码。它从用户输入中读取字符并在单词中搜索该字符；根据字符是否在单词中，程序返回并控制一些变量。代码如下: import java.util.Random; import
出现 java.lang.NullPointerException
我是自动化领域的新手。这是我的简单 TestNG 登录代码，当我以 TestNG 身份运行该代码时，它会出现 java.lang.NullPointerException，双击它会突出显示我导航到 U
java - 当我尝试从另一个类向引用的类添加一些值时，出现 nullPointerException
我是c#程序员，我习惯了c#的封装语法和其他东西。但是现在，由于某些原因，我应该用java写一些东西，我现在正在练习java一天!我要创建一个为我自己创建一个虚拟项目，以便让自己更熟悉 Java 的
java - ClassPathXmlApplicationContext 出现 NoClassDefFoundError？
我正在使用 Intellij，我的源类是 main.com.coding，我的资源文件是 main.com.testing。我将 spring.xml 文件放入资源文件中。我的测试类位于 test.
python - pytest 出现 ModuleNotFoundError
我想要我的tests folder separate到我的应用程序代码。我的项目结构是这样的 myproject/ myproject/ myproject.py moduleon
java - 当我尝试比较数据库中的值和编辑文本输入时，出现 NullPointerException
这个问题已经有答案了: What is a NullPointerException, and how do I fix it? (12 个回答) 已关闭 6 年前。因此，我尝试比较 2 个值，一个

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

R-数据框一列中的值在其他列中出现了多少次？ (最好不使用 for 循环)