gpt4 book ai didi

r - 用 R 中的 NA 值聚类

转载 作者:行者123 更新时间:2023-12-04 02:08:04 24 4
gpt4 key购买 nike

我惊讶地发现 clara来自 library(cluster)允许 NA。但是函数文档没有说明它如何处理这些值。

所以我的问题是:

  • 如何clara处理 NA?
  • 这可以以某种方式用于 kmeans (Nas 不允许)?

  • [更新] 所以我确实在 clara 中找到了几行代码功能:
    inax <- is.na(x)
    valmisdat <- 1.1 * max(abs(range(x, na.rm = TRUE)))
    x[inax] <- valmisdat

    通过 valmisdat 进行缺失值替换.不确定我是否理解使用此类公式的原因。有什么想法吗?按每列分别处理 NAs 会更“自然”,也许用平均值/中位数代替?

    最佳答案

    虽然没有明确说明,但我相信 NA?daisy 中描述的方式处理帮助页面。详细信息部分有:

    In the daisy algorithm, missing values in a row of x are not included in the dissimilarities involving that row.



    给定内部相同的代码将被 clara() 使用这就是我的理解 NA可以处理数据中的 s - 它们只是不参与计算。在这种情况下,这是一种合理的标准处理方式,例如用于高尔广义相似系数的定义。

    更新 C来源 clara.c清楚地表明这(上面)是如何 NA s 由 clara() 处理( ./src/clara.c 中的第 350-356 行):
        if (has_NA && jtmd[j] < 0) { /* x[,j] has some Missing (NA) */
    /* in the following line (Fortran!), x[-2] ==> seg.fault
    {BDR to R-core, Sat, 3 Aug 2002} */
    if (x[lj] == valmd[j] || x[kj] == valmd[j]) {
    continue /* next j */;
    }
    }

    关于r - 用 R 中的 NA 值聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10721299/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com