gpt4 book ai didi

r - 列表上 <- NULL 的行为与用于删除数据的 data.frames 的行为

转载 作者:行者123 更新时间:2023-12-03 05:27:06 24 4
gpt4 key购买 nike

许多 R 用户最终找到了很多从数据中删除元素的方法。一种方法是使用NULL ,特别是当您想要执行诸如从 data.frame 中删除一列之类的操作时或者从 list 中删除一个元素.

最终,用户遇到了一种情况,他们想要从 data.frame 中删除几列。他们立刻想到了<- list(NULL)作为解决方案(因为使用 <- NULL 将导致错误)。

一个data.frame list 的特殊类型,因此不难想象从 list 中删除项目的方法应该与从 data.frame 中删除列相同。但是,它们会产生不同的结果,如下面的示例所示。

## Make some small data--two data.frames and two lists
cars1 <- cars2 <- head(mtcars)[1:4]
cars3 <- cars4 <- as.list(cars2)

## Demonstration that the `list(NULL)` approach works
cars1[c("mpg", "cyl")] <- list(NULL)
cars1
# disp hp
# Mazda RX4 160 110
# Mazda RX4 Wag 160 110
# Datsun 710 108 93
# Hornet 4 Drive 258 110
# Hornet Sportabout 360 175
# Valiant 225 105

## Demonstration that simply using `NULL` does not work
cars2[c("mpg", "cyl")] <- NULL
# Error in `[<-.data.frame`(`*tmp*`, c("mpg", "cyl"), value = NULL) :
# replacement has 0 items, need 12

切换到将相同的概念应用于 list ,并比较行为上的差异。

## Does not fully drop the items, but sets them to `NULL`
cars3[c("mpg", "cyl")] <- list(NULL)
# $mpg
# NULL
#
# $cyl
# NULL
#
# $disp
# [1] 160 160 108 258 360 225
#
# $hp
# [1] 110 110 93 110 175 105

## *Does* drop the `list` items while this would
## have produced an error with a `data.frame`
cars4[c("mpg", "cyl")] <- NULL
# $disp
# [1] 160 160 108 258 360 225
#
# $hp
# [1] 110 110 93 110 175 105
<小时/>

我的主要问题是,如果data.framelist ,为什么在这种情况下它的表现如此不同?有没有一种万无一失的方法来知道元素何时会被删除,何时会产生错误,何时会简单地给出 NULL值(value)?或者我们是否依赖于反复试验?

最佳答案

免责声明:这是一个相对较长的答案,不是很清楚,也不是很有趣,所以请随意跳过它或只阅读(某种)结论。

我尝试过一些追踪 [<-.data.frame ,正如 Ari B. Friedman 所建议的。调试从函数的第 162 行开始,其中有一个测试以确定是否 value (替换值参数)不是列表。

案例 1:value不是列表

那么它就被认为是一个向量。矩阵和数组被视为一个向量,就像帮助页面所说:

Note that when the replacement value is an array (including a matrix) it is not treated as a series of columns (as 'data.frame’ and ‘as.data.frame’ do) but inserted as a single column.

如果在 LHS 中仅选择数据帧的一列,则唯一的约束是要替换的行数必须等于 length(value) 或其倍数。如果是这种情况,value被回收利用 rep如有必要并转换为列表。如果length(value)==0 ,没有回收(因为这是不可能的),并且 value只是转换为列表。

如果在 LHS 中选择了数据帧的几列,则约束会更复杂一些:length(value)必须等于或倍数要替换的元素总数,即行数*列数。

确切的测试如下:

(m < n * p && (m == 0L || (n * p)%%m))

哪里n是行数,p列数,和 m value的长度。如果条件为 FALSE,则 value转换为n x p矩阵(因此必要时回收)并且矩阵按列分割成列表。

如果value为 NULL,则条件为 TRUE,如 m==0 ,并且该功能停止。请注意,每个 value 都会出现该问题。长度为 0。例如,

cars1[,c("mpg")] <- numeric(0)

有效,而:

cars1[,c("mpg","disp")] <- numeric(0)

失败的方式与 cars1[,c("mpg","disp")] <- NULL 相同

案例 2:value是一个列表

如果value是一个列表,那么它用来同时替换几列。例如:

cars1[,c("mpg","disp")] <- list(1,2)

将取代cars1$mpg向量为 1,并且 cars1$disp向量为 2s。

这里发生了一种“双重回收”:

  • 首先,value的长度list 必须小于或等于要替换的列数。如果较少,则完成经典回收。
  • 第二个,对于 value 的每个元素list,其长度必须等于、大于或者是要替换的行数的倍数。如果小于,则对每个列表元素进行另一次回收以匹配行数。如果超过,则会显示警告。

value在 RHS 中是 list(NULL) ,实际上什么也没发生,因为回收是不可能的( rep(NULL, 10) 始终是 NULL )。但代码继续,最后每一个要替换的列都被分配了 NULL ,即被删除。

总结和(某种)结论

data.framelist由于数据帧的特定约束,其中每个元素必须具有相同的长度,因此行为有所不同。通过分配 NULL 删除几列失败不是因为 NULL值本身,但因为 NULL长度为 0。该错误来自测试,该测试验证分配值的长度是否是要替换的元素数量(行数 * 列数)的倍数。

处理value=NULL的案件对于多列似乎并不困难(通过添加大约四行简单代码),但它需要考虑 NULL作为一个特例。我无法确定它是否不被处理,因为它会破坏函数实现的逻辑,或者因为它会产生我不知道的副作用。

关于r - 列表上 <- NULL 的行为与用于删除数据的 data.frames 的行为,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19434778/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com