r - data.frame 中的行数相等-6ren

r - data.frame 中的行数相等

转载作者：行者123 更新时间：2023-12-01 12:50:09

25

4

我有一个如下所示的数据框:

df <- data.frame(
  Logical = c(TRUE,FALSE,FALSE,FALSE,FALSE,FALSE),
  A = c(1,2,3,2,3,1),
  B = c(1,0.05,0.80,0.05,0.80,1),
  C = c(1,10.80,15,10.80,15,1))

看起来像:

  Logical A    B    C
1    TRUE 1 1.00  1.0
2   FALSE 2 0.05 10.8
3   FALSE 3 0.80 15.0
4   FALSE 2 0.05 10.8
5   FALSE 3 0.80 15.0
6   FALSE 1 1.00  1.0

我想添加一个新变量 D，它是一个基于以下规则的整数:0 if df$Logical 为 TRUE，或者对于变量 A、B 和 C 的所有行都相同的整数从 1 开始大致相等(因为它们是 double ，所以在浮点误差范围内)。

这里的预期输出:

  Logical A    B    C D
1    TRUE 1 1.00  1.0 0
2   FALSE 2 0.05 10.8 1
3   FALSE 3 0.80 15.0 2
4   FALSE 2 0.05 10.8 1
5   FALSE 3 0.80 15.0 2
6   FALSE 1 1.00  1.0 3

第一行得到 0 因为 Logical 是 TRUE，第二和第四行得到 1 因为变量 A, B 和 C 大致相等，第二行和第五行也一样。第六行获得 3，因为它是下一个唯一行。请注意，D 中分配的整数顺序无关紧要，0 除外。例如，第 2 行和第 4 行也可以分配 2，只要该整数在 D 的其他情况下是唯一的即可。

我考虑过使用聚合函数。例如使用 ddply:

library("plyr")
df$foo <- 1:nrow(df)
foo <- dlply(df,.(A,B,C),'[[',"foo")
df$D <- 0
for (i in 1:length(foo)) df$D[foo[[i]]] <- i
df$D[df$Logical] <- 0

有效，但我不确定这对浮点错误的处理效果如何(我想我可以在调用之前将此处的值四舍五入，但它应该非常稳定)。使用循环很容易:

df$D <- 0
c <- 1
for (i in 1:nrow(df))
{
  if (!isTRUE(df$Logical[i]) & df$D[i]==0)
  {
    par <- sapply(1:nrow(df),function(j)!df$Logical[j]&isTRUE(all.equal(unlist(df[j,c("A" ,"B", "C")]),unlist(df[i,c("A" ,"B", "C")]))))
    df$D[par] <- c
    c <- c+1
  }
}

但这对于较大的数据帧来说非常慢。

最佳答案

根据下面 Matthew Dowle 的评论，data.table 可以对数值进行分组，并使用 .Machine$double.eps^.5 容差来区分它们。考虑到这一点，data.table 解决方案应该可行:

library(data.table)

DT <- as.data.table(df)

DT[, D := 0]

.GRP <- 0

DT[!Logical, D := .GRP <- .GRP + 1, by = "A,B,C"]

#    Logical A    B    C foo D
# 1:    TRUE 1 1.00  1.0   1 0
# 2:   FALSE 2 0.05 10.8   2 1
# 3:   FALSE 3 0.80 15.0   3 2
# 4:   FALSE 2 0.05 10.8   4 1
# 5:   FALSE 3 0.80 15.0   5 2
# 6:   FALSE 1 1.00  1.0   6 3

正如 Matthew Dowle 所写 here , .GRP 是在data.table 1.8.3实现的，但我还是1.8.2

根据评论跟进，这是 1.8.2 的新闻项目。将添加到 ?data.table，感谢您的突出显示!

Numeric columns (type double) are now allowed in keys and ad hoc by. J() and SJ() no longer coerce double to integer. i join columns which mismatch on numeric type are coerced silently to match the type of x's join column. Two floating point values are considered equal (by grouping and binary search joins) if their difference is within sqrt(.Machine$double.eps), by default. See example in ?unique.data.table. Completes FRs #951, #1609 and #1075. This paves the way for other atomic types which use double (such as POSIXct and bit64). Thanks to Chris Neff for beta testing and finding problems with keys of two numeric columns (bug #2004), fixed and tests added.

关于r - data.frame 中的行数相等，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13067849/

25

4

0

文章推荐： java - BIRT csv 发射器插件错误 -

文章推荐： php - 如何从公共(public)访问中隐藏 ajax 页面 [codeigniter]

文章推荐： Java Swing 背景图像重复和最大化窗口

java - 为什么自动装箱的整数和 .getClass() 值 == 相等，而不仅仅是 .equals() 相等？
也许我在 Java 上工作的时间太长而没有真正理解它的一些基础知识。我确实理解 == 用于对象引用相等，而 .equals() 用于对象值相等。比较整数: Integer x = 1, y = 1
javascript - boolean 相等
我是从一道考试题中得出这个答案的，但无法理解该解决方案的工作原理。如果值“x”和“y”相等，则此函数应该返回“true”，否则返回 False。解决方法: function equal_boolea
Mysql utf8mb4 相等
我将带有表情符号的文本存储在 mysql 数据库中。数据库、表和列设置为使用utf8mb4和utf8mb4_unicode_ci。我可以毫无问题地输入单元格值(数据类型是 VARCHAR)。但是
PHP DateTime 相等
如果两个 DateTime 对象具有相同的日、月和年，我该如何比较？问题是他们有不同的小时/分钟/秒。最佳答案对于 DateTime 对象，没有好的方法可以做到这一点。所以你必须做，比方说，不是那
c# - GetHashCode 相等
我一直想知道这个问题，所以我想我会问的。您将看到的大多数地方都使用相同的语义逻辑来覆盖 Equals 和 GetHashCode 以实现成员平等...但是它们通常使用不同的实现: publi
comparison - CoreGraphics 中的浮点比较(相等)
苹果 CoreGraphics.framework , CGGeometry.h : CG_INLINE bool __CGSizeEqualToSize(CGSize size1, CGSize s
python - 由于最新的python版本保留了dict的插入顺序，相等(==)的含义会改变吗？
在最新的python 版本中， dict 保留了插入的顺序。在平等方面是否有任何变化。例如，目前以下工作。既然广告顺序很重要， future 会不会发生这种变化？我问是因为有根本性的变化 - 以前
django 过滤器两个 ManyToManyField 相等
class VideoUserModel(models.Model): user = models.ManyToManyField(get_user_model()) viewlist
coq - 枚举类型的 COQ 相等
我在 COQ 中有一个有限枚举类型(比如 T)，我想检查元素是否相等。这意味着，我需要一个函数 bool beq_T(x:T,y:T) 我设法定义这样一个函数的唯一方法是逐个分析。这会导致很多匹配语
fortran - 测试 float 相等
我在 Windows 7(32 位)下的 MinGW 中使用 gfortran 来编译 Fortran 代码。这是文件 testequal.f 中包含的最少代码: program test
java - jsp。枚举比较/相等
我有以下 jsp 片段: ${campaign.moderated}
python - 如何测试两个稀疏数组是否(几乎)相等？
我想检查两个稀疏数组是否(几乎)相等。而对于 numpy 数组，你可以这样做: import numpy as np a = np.ones(200) np.testing.assert_array_
c# - 自定义对象的值是否与 List<> 相等
我有以下类(class): public class MyDocuments { public DateTime registeredDate; public
c - for循环中两个 float 相等
这个问题已经有答案了: Is floating point math broken? (33 个回答) 已关闭 5 年前。我在这里想做的是，我采用一个精度值(小于 1)并打印 1/n 类型的所有数字
C 检查字符串的最后一个字符是否与 X 相等
我正在为我的arduino写一个草图，我想检查我的字符串的最后一个字符。例如: 如果输入是 cats- 我想看看最后一个字符(在我的例子中是“-”)实际上是否 - 我使用的代码: 串行事件函数 vo
c# - RuntimeMethodInfo 相等 : bug?
让我们开始: using System; public class Program { class A { public virtual void Do() { }
java - 仅根据某些键将两个 HashMap 相等
我只需要根据几个键(不是全部)来确定两个 HashMap 的相等性除了单独访问每个字段并比较相等性之外，还有其他节省时间的方法吗？最佳答案我能想到的一种方法是在您的 HashMap 上存储某种“
java - 测试是否与 double 相等
在Java中，大写的Double可以为null。但是如果我有 double a 和 b 并且我这样做: if (a.equals(b)) 如果其中之一为空，它会崩溃。有没有更好的方法来比较它们？最
mysql - 使用选择选项从另一个数据库插入并且两个数据库表 ID 相等
我正在尝试从我的旧数据库中插入表格数据。 Id 在数据库表和选择特定列中都相等。这是我的数据库。旧数据库:sch -> 旧表:product (id, tag, url) (13, red, aaa
css - 在容器内拆分两个 div 相等
我正在开发一个应用程序，它在我的主视图中有一个侧边栏和两个 div。我试图在容器内平均分割两者的高度。我试过 height = 50% 但效果不太好。

首页

博学

6Ren·AI

商城

r - data.frame 中的行数相等