r - 准确了解 data.table 何时是对另一个 data.table 的引用(相对于副本)-6ren

r - 准确了解 data.table 何时是对另一个 data.table 的引用(相对于副本)

转载作者：行者123 更新时间：2023-12-02 04:49:26

27

4

我在理解 data.table 的传递引用属性时遇到了一些问题.有些操作似乎“破坏”了引用，我想确切地了解发生了什么。

关于创建 data.table来自另一个data.table (通过 <- ，然后通过 := 更新新表，原始表也被更改。这是预期的，按照:

?data.table::copy和 stackoverflow: pass-by-reference-the-operator-in-the-data-table-package

这是一个例子:

library(data.table)

DT <- data.table(a=c(1,2), b=c(11,12))
print(DT)
#      a  b
# [1,] 1 11
# [2,] 2 12

newDT <- DT        # reference, not copy
newDT[1, a := 100] # modify new DT

print(DT)          # DT is modified too.
#        a  b
# [1,] 100 11
# [2,]   2 12

但是，如果我插入一个非 := <- 之间的基础修改分配和 :=上面的行，DT现在不再修改:

DT = data.table(a=c(1,2), b=c(11,12))
newDT <- DT        
newDT$b[2] <- 200  # new operation
newDT[1, a := 100]

print(DT)
#      a  b
# [1,] 1 11
# [2,] 2 12

看来 newDT$b[2] <- 200行以某种方式“破坏”了引用。我猜这会以某种方式调用副本，但我想完全了解 R 如何处理这些操作，以确保我不会在我的代码中引入潜在的错误。

如果有人能向我解释一下，我将不胜感激。

最佳答案

是的，它是 R 中使用 <- 的子赋值(或 = 或 -> )复制整个对象。您可以使用 tracemem(DT) 进行追踪和 .Internal(inspect(DT)) ，如下。 data.table功能 :=和 set()通过引用分配给它们传递的任何对象。因此，如果该对象之前被复制(通过子分配 <- 或显式 copy(DT) )，那么它就是通过引用修改的副本。

DT <- data.table(a = c(1, 2), b = c(11, 12)) 
newDT <- DT 

.Internal(inspect(DT))
# @0000000003B7E2A0 19 VECSXP g0c7 [OBJ,NAM(2),ATT] (len=2, tl=100)
#   @00000000040C2288 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 1,2
#   @00000000040C2250 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 11,12
# ATTRIB:  # ..snip..

.Internal(inspect(newDT))   # precisely the same object at this point
# @0000000003B7E2A0 19 VECSXP g0c7 [OBJ,NAM(2),ATT] (len=2, tl=100)
#   @00000000040C2288 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 1,2
#   @00000000040C2250 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 11,12
# ATTRIB:  # ..snip..

tracemem(newDT)
# [1] "<0x0000000003b7e2a0"

newDT$b[2] <- 200
# tracemem[0000000003B7E2A0 -> 00000000040ED948]: 
# tracemem[00000000040ED948 -> 00000000040ED830]: .Call copy $<-.data.table $<- 

.Internal(inspect(DT))
# @0000000003B7E2A0 19 VECSXP g0c7 [OBJ,NAM(2),TR,ATT] (len=2, tl=100)
#   @00000000040C2288 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 1,2
#   @00000000040C2250 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 11,12
# ATTRIB:  # ..snip..

.Internal(inspect(newDT))
# @0000000003D97A58 19 VECSXP g0c7 [OBJ,NAM(2),ATT] (len=2, tl=100)
#   @00000000040ED7F8 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 1,2
#   @00000000040ED8D8 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 11,200
# ATTRIB:  # ..snip..

注意 a 是怎样的向量被复制(不同的十六进制值表示向量的新副本)，即使 a没有改变。甚至整个b被复制，而不仅仅是改变需要改变的元素。这对于大数据来说很重要，为什么要避免 :=和 set()被介绍给data.table .

现在，使用我们复制的 newDT我们可以引用修改:

newDT
#      a   b
# [1,] 1  11
# [2,] 2 200

newDT[2, b := 400]
#      a   b        # See FAQ 2.21 for why this prints newDT
# [1,] 1  11
# [2,] 2 400

.Internal(inspect(newDT))
# @0000000003D97A58 19 VECSXP g0c7 [OBJ,NAM(2),ATT] (len=2, tl=100)
#   @00000000040ED7F8 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 1,2
#   @00000000040ED8D8 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 11,400
# ATTRIB:  # ..snip ..

请注意，所有 3 个十六进制值(列点向量和 2 列中的每一列)都保持不变。所以它是真正的引用修改，根本没有任何副本。

或者，我们可以修改原来的DT通过引用:

DT[2, b := 600]
#      a   b
# [1,] 1  11
# [2,] 2 600

.Internal(inspect(DT))
# @0000000003B7E2A0 19 VECSXP g0c7 [OBJ,NAM(2),ATT] (len=2, tl=100)
#   @00000000040C2288 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 1,2
#   @00000000040C2250 14 REALSXP g0c2 [NAM(2)] (len=2, tl=0) 11,600
#   ATTRIB:  # ..snip..

这些十六进制值与我们在 DT 中看到的原始值相同多于。输入 example(copy)有关更多示例，请使用 tracemem并与 data.frame 进行比较.

顺便说一句，如果你 tracemem(DT)然后DT[2,b:=600]你会看到一份报告。这是 print 前 10 行的副本方法呢。当用 invisible() 包裹时或者在函数或脚本中调用时，print方法未被调用。

所有这些也适用于内部函数；即 :=和 set()不要在写入时复制，即使在函数内也是如此。如果您需要修改本地副本，请调用 x=copy(x)在函数的开始。但是，记住 data.table适用于大数据(以及小数据更快的编程优势)。我们故意不想复制大对象(永远)。因此，我们不需要考虑通常的 3* 工作内存因素经验法则。我们尝试只需要与一列一样大的工作内存(即工作内存因子为 1/ncol 而不是 3)。

关于r - 准确了解 data.table 何时是对另一个 data.table 的引用(相对于副本)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30210988/

27

4

0

文章推荐： r - 如何将数据框的名称传递给 Excel 工作表(使用 xlsx 包)

文章推荐： plugins - 如何在 SBT 任务中获取所有项目？

文章推荐： android - 在 Android 中以编程方式设置 APN

文章推荐： aws-lambda - 使用相同代码更新 Terraform lambda source_code_hash

创建静态全局的多个实例/副本
不确定我的标题措辞是否正确，但请耐心等待，所有内容都会得到解释... 我们有一组代码不是在这里发明的，它使用进程间通信(IPC 消息传递)。该方案的大致轮廓是这样的: comms.c 包含: stat
svn - 命令行列出颠覆中的所有合并(副本)？
你怎么能列出所有的颠覆合并？例如: Trunk ____9_____14____20___ \ \ \ \______\_____\___
Java 集合引用-副本
是否有一个集合的标准 Java(1.5+)实现(即无第三方)，允许我将多个集合粘合到一个集合中？这是其工作原理的草图: final SomeCollection x = new SomeCollec
带有索引标记的行的 postgresql 副本
有没有办法让sql查询返回拆分行。我什至不知道怎么问。下面有'index_tag'。 select event.name, tb_ev.start_time, tb_ev.end_time from
具有模式支持的 postgresql 副本
我正在尝试使用 postgresql COPY 命令从 CSV 加载一些数据。诀窍是我想在用户标识(包含在 CSV 中)上实现 Multi-Tenancy 。加载 csv 时，是否有一种简单的方法告诉
带变量的 bash 副本
我正在尝试使用 bash 脚本将文件复制到当前目录。为了处理需要转义的路径，使用了一个变量，该变量被转义然后提供给 cp 命令。 cp 命令提示: usage: cp [-R [-H | -L |
swift - CAShapelayer 副本
我正在尝试每 20 毫秒向给定的 x 和 y 坐标添加一次 CAShapelayer。我希望形状在一秒钟内消失(就像示踪剂一样)。我创建的功能有效，形状在正确的位置创建并消失。但是我留下了额外的形状，
Python:根据用户输入打印一个或多个文件(副本)
我是 Python 新手。我正在尝试创建一个程序来打印我通常每周手动打印的一组文档，但是我遇到了几个问题: 这是代码: import os file_list = os.listdir("C:/Pyt
Java ArrayList 副本
我有一个大小为 10 的 ArrayList l1。我将 l1 分配给新的列表引用类型 l2。 l1 和 l2 会指向同一个 ArrayList 对象吗？或者是 ArrayList 对象的副本分配给
mongodb - Mongo 副本 "NotPrimaryNoSecondaryOk"
我这周花了一个自由职业者创建的 Mongo 4.4 PSA 副本来工作。我放弃了，从所有三台服务器上删除了完整的 mongod，然后按照 Mongo doc 从头开始安装。 .唯一的变化是在副本初
Cassandra:如何识别和列出包含特定行(副本)的节点？
设置信息: 我有两个数据中心，每个 DC 中有 5 个节点。我知道插入到表中的每一行都是根据使用的数据分区方案存储的；生成必要的副本并将它们存储在集群中的其他节点(根据复制策略选择节点)上。给定一行
xml - 无重复的 XSLT 副本
我对 XSLT 完全陌生，所以请耐心等待。我有两个 xml 文件，我试图使用 XSLT 将它们连接在一起。我想合并这些文件，以便第二个文件中指定的任何值覆盖第一个文件。例如 firstFile.xm
F# 制作不必要的 DateTimeOffset 副本
这里肯定有一个初学者问题，为什么 F# 编译器会制作不必要的 DateTimeOffset 副本，我该如何阻止它？我不记得这是个问题，但也许自从我在 F# 中使用 DateTimeOffset 以来已
c# - 基于模板打开 Excel 副本
我有一个用 C# 编写的 WinForms 应用程序，在将数据从 SQL 数据库导出到模板的工作表之前，它使用以下代码打开 Excel 模板。 Microsoft.Office.Interop.Exc
xslt - 带子字符串的 xsl 副本
我从这个 post 得到的 xsl 中有这个函数用“换行符”替换“cr” 我是这样调用它的: 我正在做文章链接，点击文本“阅读更多”
java - 多个实例而不是接口(interface)副本
所以这可能有点难以解释...... 目前我这样做: SomeInterface xyz1 = SomeInterface.method(data); SomeInterfaceCopy xyz2 =
pointers - 指针的 Fortran 副本
我有一个包含指针 p 的类型 var。我需要在另一个与 var 类型相同的变量 var1 上复制 var(通过在引号中执行 var1 "="var，因为我不知道这是否是正确的方法，请参见下文)。在我
xampp - 如何同时运行两个 xampp 副本？
出于某种原因，我需要同时运行两个 xampp 副本。我在互联网上阅读了很多教程，但如果我需要运行另一个，他们最终会告诉我关闭当前的 xampp。这有可能实现吗？最佳答案您可以使用不同的端口同时运行
云中的 Azure Blob 副本
在aws中，“upload-part-copy”具有字节范围选项。如果我想将两个对象的一部分复制到云中的新对象，我可以使用“upload-part-copy”命令进行复制。我找不到任何此类方法或机制
postgresql - 带行分隔符的 postgres 副本
我有一个带栏的表 foo foo --- bar 我使用 Postgres 的 Copy 命令 COPY (select * from foo) TO 'complete_file_path' WIT

首页

博学

6Ren·AI

商城

r - 准确了解 data.table 何时是对另一个 data.table 的引用(相对于副本)