gpt4 book ai didi

r - 尽管试图保留属性,但仍会丢失属性

转载 作者:行者123 更新时间:2023-12-04 12:33:00 24 4
gpt4 key购买 nike

我遇到的问题 make总是重建Makefile目标 ( make always rebuilds Makefile targets ) 及其调查发现 另一个问题 ,这是这个问题的主题。重复执行以下R代码导致 对象属性丢失在数据转换操作期间。

作为记录,我不得不说我已经写过关于这个主题的文章( Approaches to preserving object's attributes during extract/replace operations ),但那个问题和答案更笼统(我错误地认为简单的保存属性有效 - 在写作时它对我有用,因为当时我还没有执行操作,对对象的属性有潜在危险)。

以下是我的 R 代码的摘录,其中我遇到了属性丢失的问题。

##### GENERIC TRANSFORMATION FUNCTION #####

transformResult <- function (dataSource, indicator, handler) {

fileDigest <- base64(indicator)
rdataFile <- paste0(CACHE_DIR, "/", dataSource, "/",
fileDigest, RDS_EXT)
if (file.exists(rdataFile)) {
data <- readRDS(rdataFile)

# Preserve user-defined attributes for data frame's columns
# via defining new class 'avector' (see code below)). Also,
# preserve attributes (comments) for the data frame itself.
data2 <- data.frame(lapply(data, function(x)
{ structure(x, class = c("avector", class(x))) } ))
#mostattributes(data2) <- attributes(data)
attributes(data2) <- attributes(data)

result <- do.call(handler, list(indicator, data2))
saveRDS(result, rdataFile)
rm(result)
}
else {
error("RDS file for \'", indicator, "\' not found! Run 'make' first.")
}
}


## Preserve object's special attributes:
## use a class with a "as.data.frame" and "[" method

as.data.frame.avector <- as.data.frame.vector

`[.avector` <- function (x, ...) {
#attr <- attributes(x)
r <- NextMethod("[")
mostattributes(r) <- attributes(x)
#attributes(r) <- attr
return (r)
}

##### HANDLER FUNCTION DEFINITIONS #####

projectAge <- function (indicator, data) {

# do not process, if target column already exists
if ("Project Age" %in% names(data)) {
message("Project Age: ", appendLF = FALSE)
message("Not processing - Transformation already performed!\n")
return (invisible())
}

transformColumn <- as.numeric(unlist(data["Registration Time"]))
regTime <- as.POSIXct(transformColumn, origin="1970-01-01")
prjAge <- difftime(Sys.Date(), as.Date(regTime), units = "weeks")
data[["Project Age"]] <- as.numeric(round(prjAge)) / 4 # in months

# now we can delete the source column
if ("Registration Time" %in% names(data))
data <- data[setdiff(names(data), "Registration Time")]

if (DEBUG2) {print(summary(data)); print("")}

return (data)
}


projectLicense <- function (indicator, data) {

# do not process, if target column (type) already exists
if (is.factor(data[["Project License"]])) {
message("Project License: ", appendLF = FALSE)
message("Not processing - Transformation already performed!\n")
return (invisible())
}

data[["Project License"]] <-
factor(data[["Project License"]],
levels = c('gpl', 'lgpl', 'bsd', 'other',
'artistic', 'public', '(Other)'),
labels = c('GPL', 'LGPL', 'BSD', 'Other',
'Artistic', 'Public', 'Unknown'))

if (DEBUG2) {print(summary(data)); print("")}

return (data)
}


devTeamSize <- function (indicator, data) {

var <- data[["Development Team Size"]]

# convert data type from 'character' to 'numeric'
if (!is.numeric(var)) {
data[["Development Team Size"]] <- as.numeric(var)
}

if (DEBUG2) {print(summary(data)); print("")}

return (data)
}


##### MAIN #####

# construct list of indicators & corresponding transform. functions
indicators <- c("prjAge", "prjLicense", "devTeamSize")
transforms <- list(projectAge, projectLicense, devTeamSize)

# sequentially call all previously defined transformation functions
lapply(seq_along(indicators),
function(i) {
transformResult("SourceForge",
indicators[[i]], transforms[[i]])
})

在第二次运行此代码后,命名“Project Age”和“Project License”以及数据框的其他用户定义属性 data2丢失了。

我的 问题 这是多方面的:

1) 我的代码中的哪些语句可能导致 属性丢失为什么?

2)什么是 正确 mostattributes <- attributes 中的代码行( attributes <- attributes/attrtransformResult() )和 avector类定义和原因;

3) 是声明 as.data.frame.avector <- as.data.frame.vector真的需要,如果我添加类属性 avector到数据框对象,通常是 更喜欢通用解决方案 (不仅适用于数据框);为什么或者为什么不。

4) 通过 attr 保存 在类定义中 不起作用,它失败并出现以下错误:
Error in attributes(r) <- attr :
'names' attribute [5] must be the same length as the vector [3]
Calls: lapply ... summary.data.frame -> lapply -> FUN -> summary.default -> [ -> [.avector

所以,我不得不重新使用 mostattributes() .可以吗?

==========

我已阅读有关该主题的以下内容:
  • 所以问题:How to delete a row from a data.frame without losing the attributes (我喜欢 Ben Barns 的解决方案,但它与 Gabor Grothendieck 和 Marc Schwartz 建议的方案略有不同——见下文);
  • 所以问题:indexing operation removes attributes (虽然解决方案清晰易读,但我更喜欢一个,基于类定义/子分类?/);
  • Heinz Tuechler ( https://stat.ethz.ch/pipermail/r-help/2006-July/109148.html ) 建议的通用解决方案 - 我需要这个吗?
  • Brian Ripley ( http://r.789695.n4.nabble.com/Losing-attributes-in-data-frame-PR-10873-tp919265p919266.html ) 的解释——我觉得有些困惑;
  • Gabor Grothendieck ( https://stat.ethz.ch/pipermail/r-help/2006-May/106308.html ) 提出的解决方案;
  • Marc Schwartz ( https://stat.ethz.ch/pipermail/r-help/2006-May/106351.html ) 对 Gabor Grothendieck 的解决方案的解释 - 非常好的解释;
  • “R Inferno”一书(www.burns-stat.com/pages/Tutor/R_inferno.pdf)的第 8.1.28 和 8.1.29 节 - 我已经尝试了他使用 storage.mode() 的建议,但并没有真正解决问题,因为通过 storage 强制不影响 class对象的(更不用说它不包括强制清除属性之外的操作,例如子集和索引;
  • http://adv-r.had.co.nz/Data-structures.html#attributes ;
  • http://stat.ethz.ch/R-manual/R-devel/library/base/html/attributes.html ;
  • http://cran.r-project.org/doc/manuals/r-devel/R-lang.html#Copying-of-attributes .

  • 附言我相信这个问题是一般性的,所以我目前没有提供可重现的例子。我希望可以在没有这样的例子的情况下回答这个问题,但是,如果没有,请告诉我。

    最佳答案

    我正在回答我自己的问题 - 好吧,现在,只有部分:

    1)经过更深入的调查和一些代码更新后,似乎属性实际上并没有丢失 (仍在尝试找出导致预期行为的更改 - 稍后会报告)。

    2) 我有 找出原因断断续续输出,转换后缓存数据全部丢失,如下。在代码的多次后续运行期间,每个 的第二次运行转换(处理程序)函数 ( projectAge()projectLicense()devTeamSize() )返回NULL,因为转换已经完成:

    if (<condition>) {
    ...
    message("Not processing - Transformation already performed!\n")
    return (invisible()) # <= returns NULL
    }

    然后返回的 NULL 被传递给 saveRDS() ,从而导致缓存数据丢失。

    修复了这个问题 通过对 result 的简单验证在保存转换后的对象之前:
    # the next line is problematic due to wrong assumption of always having full data returned
    result <- do.call(handler, list(indicator, data2))
    if (!is.null(result)) saveRDS(result, rdataFile) # <= fixed by validating incoming data

    到此为止,感谢阅读!我将更新此答案,直到所有问题都得到澄清。

    关于r - 尽管试图保留属性,但仍会丢失属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23991060/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com