gpt4 book ai didi

r - knnImpute 使用带插入符号包的分类变量

转载 作者:行者123 更新时间:2023-12-05 01:45:39 24 4
gpt4 key购买 nike

我有以下 data.table,其中每个唯一的 x 值都与一个唯一的 y 值相关联。然后我将一个 x 值强制设置为 NA 以用于 k-最近邻练习:

dt <- data.table(x = rep(c(1:4), 3), 
y = rep(c("Brandon", "Erica", "Karyna", "Alex"), 3))
dt[3, 1] <- NA

print(dt)
# x y
#1: 1 Brandon
#2: 2 Erica
#3: NA Karyna
#4: 4 Alex
#5: 1 Brandon
#6: 2 Erica
#7: 3 Karyna
#8: 4 Alex
#9: 1 Brandon
#10: 2 Erica
#11: 3 Karyna
#12: 4 Alex

引用第一个答案 this question ,我从 dt$y 中创建了一个二进制矩阵:

dt.a <- model.matrix(~ y -1 , data = dt)
dt2 <- cbind(dt[, -2, with = FALSE], dt.a)

print(dt2)
# x yAlex yBrandon yErica yKaryna
#1: 1 0 1 0 0
#2: 2 0 0 1 0
#3: NA 0 0 0 1
#4: 4 1 0 0 0
#5: 1 0 1 0 0
#6: 2 0 0 1 0
#7: 3 0 0 0 1
#8: 4 1 0 0 0
#9: 1 0 1 0 0
#10: 2 0 0 1 0
#11: 3 0 0 0 1
#12: 4 1 0 0 0

使用 caret 包的 preProcess 函数中的 knnImpute 方法,我希望下面的中心和缩放输出dt3[1, 3] 将等于第 7 行和第 12 行。但事实并非如此。事实上,它看起来几乎等于第 7 行和第 12 行的负值。

preobj <- preProcess(dt2, method = "knnImpute")
dt3 <- predict(preobj, dt2)

print(dt3)
# x yAlex yBrandon yErica yKaryna
#1: -1.19857753 -0.5527708 1.6583124 -0.5527708 -0.5527708
#2: -0.37455548 -0.5527708 -0.5527708 1.6583124 -0.5527708
#3: -0.04494666 -0.5527708 -0.5527708 -0.5527708 1.6583124
#4: 1.27348863 1.6583124 -0.5527708 -0.5527708 -0.5527708
#5: -1.19857753 -0.5527708 1.6583124 -0.5527708 -0.5527708
#6: -0.37455548 -0.5527708 -0.5527708 1.6583124 -0.5527708
#7: 0.44946657 -0.5527708 -0.5527708 -0.5527708 1.6583124
#8: 1.27348863 1.6583124 -0.5527708 -0.5527708 -0.5527708
#9: -1.19857753 -0.5527708 1.6583124 -0.5527708 -0.5527708
#10: -0.37455548 -0.5527708 -0.5527708 1.6583124 -0.5527708
#11: 0.44946657 -0.5527708 -0.5527708 -0.5527708 1.6583124
#12: 1.27348863 1.6583124 -0.5527708 -0.5527708 -0.5527708

dt3$x 的第 3 行不应该等于第 7 行和第 11 行吗?如果是这样,我需要在脚本中更改什么?如果不是,为什么?

最佳答案

要了解正在发生的事情,您首先需要了解 caret 包的函数 preProcess 中的方法 knnImpute 的工作方式。有多种类型的k-最近邻插补可用,不同的人在不同的软件包中以不同的方式实现它。

您可以使用 k 近邻的加权平均值、中值甚至简单平均值来替换缺失值。有几种距离度量来计算不同的距离以找到邻居。

现在针对您的问题,这里有一些问题会随着他们的回答而出现。

1.这里考虑了多少最近邻?

默认为5。您可以通过在 preProcess 函数中指定参数 k 来更改它。

2.正在使用哪个距离度量?

在上面的例子中使用了欧氏距离。

3.计算距离的空间维度是多少,如何找到?

在您的例子中,它是四维空间。它是通过采用没有缺失值的列获得的。因此,在您的情况下,它是列号 2, 3, 4, 5

根据上述解释,如果您在删除存储在 中的具有 NA 的行后尝试在数据集中找到五个最近的邻居 ( nn ) preobj$data ,您将获得以下索引 ( nn.idx ) 和相应的距离 ( nn.dists ),如下所示。

> nn
$nn.idx
[,1] [,2] [,3] [,4] [,5]
[1,] 10 6 5 9 2

$nn.dists
[,1] [,2] [,3] [,4] [,5]
[1,] 0 0 3.126944 3.126944 3.126944

4.现在最后如何替换NA值?

要替换 NA 值,只需取与最近索引对应的缺失列中的值的平均值。

> preobj$data
x yAlex yBrandon yErica yKaryna
1: -1.1985775 -0.5527708 1.6583124 -0.5527708 -0.5527708
2: -0.3745555 -0.5527708 -0.5527708 1.6583124 -0.5527708
3: 1.2734886 1.6583124 -0.5527708 -0.5527708 -0.5527708
4: -1.1985775 -0.5527708 1.6583124 -0.5527708 -0.5527708
5: -0.3745555 -0.5527708 -0.5527708 1.6583124 -0.5527708
6: 0.4494666 -0.5527708 -0.5527708 -0.5527708 1.6583124
7: 1.2734886 1.6583124 -0.5527708 -0.5527708 -0.5527708
8: -1.1985775 -0.5527708 1.6583124 -0.5527708 -0.5527708
9: -0.3745555 -0.5527708 -0.5527708 1.6583124 -0.5527708
10: 0.4494666 -0.5527708 -0.5527708 -0.5527708 1.6583124
11: 1.2734886 1.6583124 -0.5527708 -0.5527708 -0.5527708

> mean(preobj$data$x[nn$nn.idx])
[1] -0.04494666

你会发现 NA 在输出中确实被这个值替换了。

> dt3
x yAlex yBrandon yErica yKaryna
1: -1.19857753 -0.5527708 1.6583124 -0.5527708 -0.5527708
2: -0.37455548 -0.5527708 -0.5527708 1.6583124 -0.5527708
3: -0.04494666 -0.5527708 -0.5527708 -0.5527708 1.6583124
4: 1.27348863 1.6583124 -0.5527708 -0.5527708 -0.5527708
5: -1.19857753 -0.5527708 1.6583124 -0.5527708 -0.5527708
6: -0.37455548 -0.5527708 -0.5527708 1.6583124 -0.5527708
7: 0.44946657 -0.5527708 -0.5527708 -0.5527708 1.6583124
8: 1.27348863 1.6583124 -0.5527708 -0.5527708 -0.5527708
9: -1.19857753 -0.5527708 1.6583124 -0.5527708 -0.5527708
10: -0.37455548 -0.5527708 -0.5527708 1.6583124 -0.5527708
11: 0.44946657 -0.5527708 -0.5527708 -0.5527708 1.6583124
12: 1.27348863 1.6583124 -0.5527708 -0.5527708 -0.5527708

注意第三行。

要用最近邻的相应值替换 NA 的值,您可以简单地使用 k=1

关于r - knnImpute 使用带插入符号包的分类变量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41020237/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com