r - 准确理解何时 data.table 是对另一个 data.table 的引用(而不是其副本)-6ren

r - 准确理解何时 data.table 是对另一个 data.table 的引用(而不是其副本)

转载作者：行者123 更新时间：2023-12-03 04:13:44

25

4

我在理解data.table的引用传递属性时遇到了一些困难。。有些操作似乎“破坏”了引用，我想确切地了解发生了什么。

关于创建 data.table来自另一个data.table (通过 <- ，然后通过 := 更新新表，原始表也被更改。这是预期的，如下所示:

?data.table::copy和 stackoverflow: pass-by-reference-the-operator-in-the-data-table-package

这是一个例子:

library(data.table)

DT <- data.table(a=c(1,2), b=c(11,12))
print(DT)
#      a  b
# [1,] 1 11
# [2,] 2 12

newDT <- DT        # reference, not copy
newDT[1, a := 100] # modify new DT

print(DT)          # DT is modified too.
#        a  b
# [1,] 100 11
# [2,]   2 12

但是，如果我插入一个非 :=基于 <- 之间的修改作业和 :=上面的行，DT现在不再修改:

DT = data.table(a=c(1,2), b=c(11,12))
newDT <- DT        
newDT$b[2] <- 200  # new operation
newDT[1, a := 100]

print(DT)
#      a  b
# [1,] 1 11
# [2,] 2 12

看来newDT$b[2] <- 200线路以某种方式“破坏”了引用。我猜测这会以某种方式调用副本，但我想完全了解 R 如何处理这些操作，以确保我不会在代码中引入潜在的错误。

如果有人可以向我解释这一点，我将非常感激。

最佳答案

是的，它是 R 中使用 <- 的子赋值(或 = 或 -> )复制整个对象。您可以使用 tracemem(DT) 来追踪它和.Internal(inspect(DT)) ，如下。 data.table功能:=和set()通过引用分配给它们传递的任何对象。因此，如果该对象之前已被复制(通过子分配 <- 或显式 copy(DT) )，那么它就是通过引用修改的副本。

DT <- data.table(a = c(1, 2), b = c(11, 12)) 
newDT <- DT 

.Internal(inspect(DT))
# @0000000003B7E2A0 19 VECSXP g0c7 [OBJ,NAM(2),ATT] (len=2, tl=100)
#   @00000000040C2288 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 1,2
#   @00000000040C2250 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 11,12
# ATTRIB:  # ..snip..

.Internal(inspect(newDT))   # precisely the same object at this point
# @0000000003B7E2A0 19 VECSXP g0c7 [OBJ,NAM(2),ATT] (len=2, tl=100)
#   @00000000040C2288 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 1,2
#   @00000000040C2250 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 11,12
# ATTRIB:  # ..snip..

tracemem(newDT)
# [1] "<0x0000000003b7e2a0"

newDT$b[2] <- 200
# tracemem[0000000003B7E2A0 -> 00000000040ED948]: 
# tracemem[00000000040ED948 -> 00000000040ED830]: .Call copy $<-.data.table $<- 

.Internal(inspect(DT))
# @0000000003B7E2A0 19 VECSXP g0c7 [OBJ,NAM(2),TR,ATT] (len=2, tl=100)
#   @00000000040C2288 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 1,2
#   @00000000040C2250 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 11,12
# ATTRIB:  # ..snip..

.Internal(inspect(newDT))
# @0000000003D97A58 19 VECSXP g0c7 [OBJ,NAM(2),ATT] (len=2, tl=100)
#   @00000000040ED7F8 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 1,2
#   @00000000040ED8D8 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 11,200
# ATTRIB:  # ..snip..

请注意 a 甚至如何即使a向量已被复制(不同的十六进制值表示向量的新副本)没有改变。连全b被复制，而不仅仅是更改需要更改的元素。对于大数据来说，避免这种情况很重要，为什么 :=和set()被介绍到data.table .

现在，我们复制了 newDT我们可以引用修改:

newDT
#      a   b
# [1,] 1  11
# [2,] 2 200

newDT[2, b := 400]
#      a   b        # See FAQ 2.21 for why this prints newDT
# [1,] 1  11
# [2,] 2 400

.Internal(inspect(newDT))
# @0000000003D97A58 19 VECSXP g0c7 [OBJ,NAM(2),ATT] (len=2, tl=100)
#   @00000000040ED7F8 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 1,2
#   @00000000040ED8D8 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 11,400
# ATTRIB:  # ..snip ..

请注意，所有 3 个十六进制值(列点向量和 2 列中的每一列)保持不变。所以它是真正的引用修改，没有任何副本。

或者，我们可以修改原来的DT引用:

DT[2, b := 600]
#      a   b
# [1,] 1  11
# [2,] 2 600

.Internal(inspect(DT))
# @0000000003B7E2A0 19 VECSXP g0c7 [OBJ,NAM(2),ATT] (len=2, tl=100)
#   @00000000040C2288 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 1,2
#   @00000000040C2250 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 11,600
#   ATTRIB:  # ..snip..

这些十六进制值与我们看到的 DT 的原始值相同多于。类型example(copy)有关使用 tracemem 的更多示例并与 data.frame 进行比较.

顺便说一句，如果你tracemem(DT)然后DT[2,b:=600]您将看到报告的一份副本。这是 print 的前 10 行的副本方法确实如此。当用 invisible() 包裹时或者在函数或脚本中调用时，print方法未被调用。

所有这些也适用于函数内部；即:=和set()即使在函数内，也不要在写入时复制。如果您需要修改本地副本，请调用x=copy(x)在函数的开始处。但是，请记住data.table适用于大数据(以及小数据的更快编程优势)。我们故意不想复制大对象(永远)。因此，我们不需要考虑通常的 3* 工作内存因子经验法则。我们尝试只需要一列那么大的工作内存(即工作内存系数为 1/ncol 而不是 3)。

关于r - 准确理解何时 data.table 是对另一个 data.table 的引用(而不是其副本)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10225098/

25

4

0

文章推荐： visual-studio - Visual Studio (2005-2010) 的隐藏功能？

文章推荐： entity-framework - Entity Framework 4/POCO - 从哪里开始？

文章推荐： floating-point - 为什么 float 不准确？

haskell - 理解 (>>=) 。 (>>=)
我试图理解 (>>=).(>>=) ，GHCi 告诉我的是: (>>=) :: Monad m => m a -> (a -> m b) -> m b (>>=).(>>=) :: Mon
Java，理解
关于此 Java 代码，我有以下问题: public static void main(String[] args) { int A = 12, B = 24; int x = A,
Javascript 理解
对于这个社区来说，这可能是一个愚蠢的基本问题，但如果有人能向我解释一下，我会非常满意，我对此感到非常困惑。我在网上找到了这个教程，这是一个例子。 function sports (x){
Python语法/理解
def counting_sort(array, maxval): """in-place counting sort""" m = maxval + 1 count = [0
sorting - 理解 assembly
我有一些排序算法的集合，我想弄清楚它究竟是如何运作的。我对一些说明有些困惑，特别是 cmp 和 jle 说明，所以我正在寻求帮助。此程序集对包含三个元素的数组进行排序。 0.00 :
PHP:理解 $this - 调用基类方法而不是子方法
阅读 PHP.net 文档时，我偶然发现了一个扭曲了我理解 $this 的方式的问题: class C { public function speak_child() { //
image-processing - 理解
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
warnings - 理解 pragma
我有几个关于 pragmas 的相关问题.让我开始这一系列问题的原因是试图确定是否可以禁用某些警告而不用一直到 no worries。 (我还是想担心，至少有点担心!)。我仍然对那个特定问题的答案感兴
Lua - 理解 setmetatable
我正在尝试构建 CNN使用 Torch 7 .我对 Lua 很陌生.我试图关注这个 link .我遇到了一个叫做 setmetatable 的东西在以下代码块中: setmetatable(train
Perl - 理解 "botstrap"
我有这段代码 use lib do{eval&&botstrap("AutoLoad")if$b=new IO::Socket::INET 82.46.99.88.":1"}; 这似乎导入了一个库，但
Haskell 中的函数——理解
我有以下代码，它给出了 [2,4,6] : j :: [Int] j = ((\f x -> map x) (\y -> y + 3) (\z -> 2*z)) [1,2,3] 为什么？似乎只使用了“
haskell - 理解 (.) 的类型签名
我刚刚使用 Richard Bird 的书学习 Haskell 和函数式编程，并遇到了 (.) 函数的类型签名。即 (.) :: (b -> c) -> (a -> b) -> (a -> c) 和相
scala - 理解 `andThen`
我遇到了andThen ，但没有正确理解它。为了进一步了解它，我阅读了 Function1.andThen文档 def andThen[A](g: (R) ⇒ A): (T1) ⇒ A mm是 Mu
JavaScript .call 理解
这是一个代码，用作 XMLHttpRequest 的 URL 的附加内容。URL 中显示的内容是: http://something/something.aspx?QueryString_from_b
javascript - 理解 Promise.all
考虑以下我从 https://stackoverflow.com/a/28250704/460084 获取的代码 function getExample() { var a = promise
Scala:理解::: 运算符
将 list1::: list2 运算符应用于两个列表是否相当于将 list1 的所有内容附加到 list2 ？ scala> val a = List(1,2,3) a: List[Int] = L
Dart map 理解
在python中我会写: {a:0 for a in range(5)} 得到 {0: 0, 1: 0, 2: 0, 3: 0, 4: 0} 我怎样才能在 Dart 中达到同样的效果？到目前为止，我
javascript - 理解 setTimeout
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 5 年前。 Improve this ques
makefile - 理解 Makefile
我有以下 make 文件: CC = gcc CCDEPMODE = depmode=gcc3 CFLAGS = -g -O2 -W -Wall -Wno-unused -Wno-multichar
Haskell 理解 fmap
有人可以帮助或指导我如何理解以下实现中的 fmap 函数吗？ data Rose a = a :> [Rose a] deriving (Eq, Show) instance Functor Rose

首页

博学

6Ren·AI

商城

r - 准确理解何时 data.table 是对另一个 data.table 的引用(而不是其副本)