gpt4 book ai didi

r - 为什么 `as`方法删除矢量名称,并且有解决方法?

转载 作者:行者123 更新时间:2023-12-03 12:17:48 26 4
gpt4 key购买 nike

基本上,我试图保留一个名为dates的 vector 特殊Date s,该 vector 在我的分析中出现了很多,例如2016年元旦和2015年7月4日。 ,例如,dates["nyd"]获取新年,dates["ind"]获取7月4日。

我认为这很简单:

dates <- as.Date(c(ind = "2015-07-04", nyd = "2016-01-01"))

但是 as.Date删除了名称:
dates
# [1] "2015-07-04" "2016-01-01"

并不是 Date vector 无法命名(这很奇怪,因为它们基本上是专门解释的 integer):
setNames(dates, c("ind", "nyd"))
# ind nyd
# "2015-07-04" "2016-01-01"

不幸的是,没有办法直接声明 Date vector (据我所知?),尤其是在不知道日期的基础整数值的情况下。

探索这一点,似乎这是 as*类函数的标准做法:
as.integer(c(a = "123", b = "436"))
# [1] 123 436

as(c(a = 1, b = 2), "character")
# [1] "1" "2"

有这种原因吗?在 ?as或我见过的任何其他帮助页面中都没有提及姓名的丢失。

更一般而言,是否有一种方法(使用 as*以外的方法)来确保对象名称在转换中不会丢失?

当然,一种方法是编写自定义函数,例如 as.Date.named或使用相关方法创建自定义类 as.named,但如果还没有这样的东西,这会让我感到惊讶,因为这似乎很常见操作。

如果有关系,我在3.2.2。

最佳答案

的确,不同的as.Date方法存在差异,这就是原因(或更确切地说是“如何”):

首先,您的示例:

> as.Date(c(ind = "2015-07-04", nyd = "2016-01-01"))
[1] "2015-07-04" "2016-01-01"

在这里,我们使用 as.Date.character方法:
> as.Date.character
function (x, format = "", ...)
{
charToDate <- function(x) {
xx <- x[1L]
if (is.na(xx)) {
j <- 1L
while (is.na(xx) && (j <- j + 1L) <= length(x)) xx <- x[j]
if (is.na(xx))
f <- "%Y-%m-%d"
}
if (is.na(xx) || !is.na(strptime(xx, f <- "%Y-%m-%d",
tz = "GMT")) || !is.na(strptime(xx, f <- "%Y/%m/%d",
tz = "GMT")))
return(strptime(x, f))
stop("character string is not in a standard unambiguous format")
}
res <- if (missing(format))
charToDate(x)
else strptime(x, format, tz = "GMT")
as.Date(res)
}
<bytecode: 0x19d3dff8>
<environment: namespace:base>

无论是否指定格式,您的 vector 都将传递给 strptime,然后将其转换为POSIXlt类,然后再次将其传递给 as.Date,但这一次使用 as.Date.POSIXlt方法,即:
> as.Date.POSIXlt
function (x, ...)
.Internal(POSIXlt2Date(x))
<bytecode: 0x19d2df50>
<environment: namespace:base>

意味着最终用于转换为类Date的函数是 POSIXlt2Date调用的C函数(快速浏览文件 names.c会发现该函数是文件 do_POSIXlt2D 中的 datetime.c)。供引用,这里是:

SEXP attribute_hidden do_POSIXlt2D(SEXP call, SEXP op, SEXP args, SEXP env)
{
SEXP x, ans, klass;
R_xlen_t n = 0, nlen[9];
stm tm;

checkArity(op, args);
PROTECT(x = duplicate(CAR(args)));
if(!isVectorList(x) || LENGTH(x) < 9)
error(_("invalid '%s' argument"), "x");

for(int i = 3; i < 6; i++)
if((nlen[i] = XLENGTH(VECTOR_ELT(x, i))) > n) n = nlen[i];
if((nlen[8] = XLENGTH(VECTOR_ELT(x, 8))) > n) n = nlen[8];
if(n > 0) {
for(int i = 3; i < 6; i++)
if(nlen[i] == 0)
error(_("zero-length component in non-empty \"POSIXlt\" structure"));
if(nlen[8] == 0)
error(_("zero-length component in non-empty \"POSIXlt\" structure"));
}
/* coerce relevant fields to integer */
for(int i = 3; i < 6; i++)
SET_VECTOR_ELT(x, i, coerceVector(VECTOR_ELT(x, i), INTSXP));

PROTECT(ans = allocVector(REALSXP, n));
for(R_xlen_t i = 0; i < n; i++) {
tm.tm_sec = tm.tm_min = tm.tm_hour = 0;
tm.tm_mday = INTEGER(VECTOR_ELT(x, 3))[i%nlen[3]];
tm.tm_mon = INTEGER(VECTOR_ELT(x, 4))[i%nlen[4]];
tm.tm_year = INTEGER(VECTOR_ELT(x, 5))[i%nlen[5]];
/* mktime ignores tm.tm_wday and tm.tm_yday */
tm.tm_isdst = 0;
if(tm.tm_mday == NA_INTEGER || tm.tm_mon == NA_INTEGER ||
tm.tm_year == NA_INTEGER || validate_tm(&tm) < 0)
REAL(ans)[i] = NA_REAL;
else {
/* -1 must be error as seconds were zeroed */
double tmp = mktime00(&tm);
REAL(ans)[i] = (tmp == -1) ? NA_REAL : tmp/86400;
}
}

PROTECT(klass = mkString("Date"));
classgets(ans, klass);
UNPROTECT(3);
return ans;
}

不幸的是,我对C的理解太有限了,无法知道为什么这里缺少属性。我的猜测是,它会在 coerceVector操作期间发生,或者在POSIXlt列表的每个元素分别被强制转换为整数时发生(如果发生这种情况,请参见第1268-70行)。

但是,让我们看一下其他 as.Date方法,从主要违法者 as.Date.POSIXct开始:

> as.Date.POSIXct
function (x, tz = "UTC", ...)
{
if (tz == "UTC") {
z <- floor(unclass(x)/86400)
attr(z, "tzone") <- NULL
structure(z, class = "Date")
}
else as.Date(as.POSIXlt(x, tz = tz))
}
<bytecode: 0x19c268bc>
<environment: namespace:base>

使用此方法,如果未给出时区,或者时区为“UTC”,则该函数仅操作 POSIXct列表以提取可以解析为Date对象的数据,因此不会丢失属性,但会丢失 (如果有)给定时区,然后将其转换为POSIXlt对象,然后进一步传递给同一POSIXlt2Date内部,最终失去其属性!确实:
> as.Date(c(a = as.POSIXct("2016-01-01")), tz="UTC")
a
"2015-12-31"

> as.Date(c(a = as.POSIXct("2016-01-01")), tz="CET")
[1] "2016-01-01"

最后,正如@Roland所提到的, as.Date.numeric确实保留了以下属性:
> as.Date.numeric
function (x, origin, ...)
{
if (missing(origin))
stop("'origin' must be supplied")
as.Date(origin, ...) + x
}
<bytecode: 0x568943d4>
<environment: namespace:base>
origin通过 as.Date.character转换为Date,然后添加数字 vector ,因此保留了属性,因为:
> c(a=1) + 2
a
3

很自然地:
> c(a=16814) + as.Date("1970-01-01")
a
"2016-01-14"

我认为,在解决这一差异之前,您必须保留属性的唯一解决方案是首先转换为POSIXct(但要注意时区问题)或转换为数字,或者复制原始 vector 的属性:
> before <- c(ind = "2015-07-04", nyd = "2016-01-01")
> after <- as.Date(before)
> names(after) <- names(before)
> after
ind nyd
"2015-07-04" "2016-01-01"

关于r - 为什么 `as`方法删除矢量名称,并且有解决方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34647674/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com