r - 使用 plyr 在两列上加入两个海量数据帧-6ren

r - 使用 plyr 在两列上加入两个海量数据帧

转载作者：行者123 更新时间：2023-12-04 11:17:30

27

4

我有一个非常大的数据框，我需要在两列上连接到另一个数据框。我一直在使用 merge 来完成 ir，但 R 内存不足，表越大。是否有使用 dplyr 或 plyr 的类似解决方案？我听说他们需要更少的内存来完成。我通常知道如何在 plyr 中使用 join 函数，我正在努力解决的问题是通过两列进行连接。我一直在使用的合并语法如下:

Correlation_Table <- merge(Correlation_Table, inter, by.x = c(1,2), by.y = c(1,2), all.x = TRUE, all.y = TRUE)

例如，如果我有以下两个数据框:

> head(df1)
  x y         z          a
1 1 2 429.57410  43.746670
2 2 3 717.98184 524.288886
3 3 4 601.66938 640.245469
4 4 5  87.41476 318.964765
5 5 6 586.22234 196.759991
6 6 7 619.82194   3.308136
> head(df2)
   b  c        d
1  5  8 152.2855
2  6  9 191.5406
3  7 10 197.0520
4  8 11 175.4209
5  9 12 157.6239
6 10 13 136.3286

其中 df1 的 x 和 y 列是维度，而 df2 的 b 和 c 列也是维度，其他列是度量。我的目标是创建一个包含所有三个度量的新数据框，其中 df1.x 和 df1.y 的记录与 df2.a 和 df2.b 匹配。

这可以使用 plyr 吗？

最佳答案

你可以试试

library(dplyr)
res1 <- full_join(df1, df2, by=c('x'='b', 'y'='c'))

根据 ?full_join

by: a character vector of variables to join by. If ‘NULL’, the default, ‘join’ will do a natural join, using all variables with common names across the two tables. A message lists the variables so that you can check they're right. To join by different variables on x and y use a named vector. For example, ‘by = c("a" = "b")’ will match ‘x.a’ to ‘y.b’.

比较结果

res2 <-  merge(df1, df2, by.x = c(1,2), by.y = c(1,2),
                           all.x = TRUE, all.y = TRUE)

注意:行的顺序会有所不同

关于r - 使用 plyr 在两列上加入两个海量数据帧，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28254750/

27

4

0

文章推荐： asp.net - JQuery 验证动态添加规则

文章推荐： node.js - webpack-cli 未知参数 : --output

文章推荐： .net - 不同配置的 ClickOnce 部署

c# - 海量 ORM 和继承
“大规模”的微型 ORM 是否有处理继承的方法？ robconery / massive 为 Massive 编写提供程序很难吗？我需要非常接近 SQL Server 的东西。作为第一步，最好拦截
java - 海量 MySQL 更新
我编写了一个服务器可以使用的应用程序。此应用程序收集信息，并将其发送到服务器。每 10 秒执行一次。数据量取决于玩游戏的玩家，但让我们将其保持在大约 50 个服务器，每个服务器发送 100 条数据(每
database - 海量 postgres 表的最佳实践
我有一个表，其中包含 3 个字段(用户名、目标值、分数)，由用户名 (~400,000) 和目标值 (~4000) 的完整交叉在外部生成，并计算出分数，导致总行数约为 16 亿. 我在这个表上的所有查
android - barteksc/AndroidPdfViewer 海量 APK 大小
我们包括了这个 AndroidPdfViewer library支持在应用程序中查看 PDF 报告。它导致 APK 大小从 4.7Mb 大幅增加到 20.1Mb。有没有办法减小这个尺寸。让我知道在哪
php - 海量 PHP 数组与 MySQL 数据库？
我在脑海中争论是否应该在 MySQL 中使用大量的多维数组或数据库。我正在为一个业务有很多产品的客户开发。在这个多维数组中，我将包括每个产品的产品标题、描述、图片链接和类别。我的客户可能有 1000

首页

博学

6Ren·AI

商城

r - 使用 plyr 在两列上加入两个海量数据帧