gpt4 book ai didi

r - 从相同数据开始的 dplyr 过滤器的不同结果

转载 作者:行者123 更新时间:2023-12-02 06:32:49 26 4
gpt4 key购买 nike

当我试图回答 this question 时,我遇到了一些非常奇怪的行为。下面我定义了两次相同的数据,一次只是作为 data.frame,第二次使用 mutate。我检查结果是否相同。然后我尝试做同样的过滤操作。对于第一个数据集,这是有效的,但对于第二个(相同的)数据集,它失败了。任何人都可以弄清楚为什么。

造成这种差异的部分原因似乎是 ñ 的使用。但我不明白为什么这对第二个数据集来说是个问题,但对第一个数据集来说不是。

# define the same data twice
datos1 <- data.frame(año = 2001:2005, gedad = c(letters[1:5]), año2 = 2001:2005)
datos2 <- data.frame(año = 2001:2005, gedad = c(letters[1:5])) %>% mutate(año2 = año)
# check that they are identical
identical(datos1, datos2)
# do same operation
datos1 %>% filter(año2 >= 2003)
## año gedad año2
## 1 2003 c 2003
## 2 2004 d 2004
## 3 2005 e 2005
datos2 %>% filter(año2 >= 2003)
## Error in filter_impl(.data, dots) : object 'año2' not found

注意:我不认为这是原始问题的重复,因为我问的是为什么会出现这种差异,而原始帖子询问的是如何解决它。

编辑:由于@Khashaa 无法重现错误,这是我的 sessionInfo() 输出:

sessionInfo()
## R version 3.1.2 (2014-10-31)
## Platform: x86_64-w64-mingw32/x64 (64-bit)
##
## locale:
## [1] LC_COLLATE=German_Switzerland.1252 LC_CTYPE=German_Switzerland.1252 LC_MONETARY=German_Switzerland.1252
## [4] LC_NUMERIC=C LC_TIME=German_Switzerland.1252
##
## attached base packages:
## [1] stats graphics grDevices utils datasets methods base
##
## other attached packages:
## [1] dplyr_0.4.1
##
## loaded via a namespace (and not attached):
## [1] assertthat_0.1 DBI_0.3.1 lazyeval_0.1.10 magrittr_1.5 parallel_3.1.2 Rcpp_0.11.4 tools_3.1.2

最佳答案

通过将 R 的区域设置切换为 German_Switzerland.1252,我能够在具有希腊语系统区域设置的机器上重现错误。我还注意到,在第二种情况下,错误和变量的名称​​都已更改aρo2

似乎 mutate 在创建新列的名称时使用系统区域设置,如果它与控制台使用的区域设置不同,则会导致转换。我能够使用修改后的列名查询 dato2:

library(dplyr)
Sys.setlocale("LC_ALL","German_Switzerland.1252")
datos1 <- data.frame(año = 2001:2005, gedad = c(letters[1:5]), año2 = 2001:2005)
datos2 <- data.frame(año = 2001:2005, gedad = c(letters[1:5])) %>% mutate(año2 = año)

datos1 %>% filter(año2 >= 2003)
## aρo gedad aρo2
## 1 2003 c 2003
## 2 2004 d 2004
## 3 2005 e 2005
datos2 %>% filter(año2 >= 2003)
## Error in filter_impl(.data, dots) : object 'aρo2' not found
datos2 %>% filter("aρo2" >= 2003)
## aρo gedad aρo2
## 1 2001 a 2001
## 2 2002 b 2002
## 3 2003 c 2003
## 4 2004 d 2004
## 5 2005 e 2005

ñ 在原始问题中出现在这两种情况下的原因可能意味着机器的系统区域设置为 850,这是一个拉丁代码页,其中带有变音符号的字符与 Windows 1252 具有不同的代码。

“有趣”的是:

names(datos2)[[1]]==names(datos1)[[1]]
## [1] TRUE

因为

names(datos1)[[1]]
## [1] "aρo"

names(datos2)[[1]]
## [1] "aρo"

这意味着 R 本身会进行困惑的转换,而它的 filter 会进行正确的转换。

所有这一切的士气是 - 不要使用非英语字符,或确保您使用与机器相同的语言环境(相当脆弱)。

更新

Semi-official confirmation R 确实通过系统语言环境,因为它假设它实际上是系统使用的语言环境。尽管 Windows 始终使用 UTF-16,但“系统区域设置”实际上是“区域设置”框中的标签所说的 - 用于遗留的非 Unicode 应用程序的区域设置。

如果我没记错的话,“System Locale”曾经是Windows 2000 和NT 之前整个系统(包括UI 语言等)的区域设置。现在,您甚至可以为每个用户使用不同的 UI 语言,但名称已经固定不变。

关于r - 从相同数据开始的 dplyr 过滤器的不同结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29012008/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com