gpt4 book ai didi

R-confusionMatrix()-sort.list(y) : 'x' must be atomic for 'sort.list' 中的错误

转载 作者:行者123 更新时间:2023-11-30 08:40:58 24 4
gpt4 key购买 nike

我正在尝试使用带有随机森林的 train() 来做实用机器学习的 coursera 项目。不过我遇到了两个问题。由于原始数据集相当大,我用 2 个小数据框复制了该问题,如下所示。

输入

library(caret)
f = data.frame(x = 1:10, y = 11:20)
f2 = data.frame(x = 1:5, y = 6:10)
fit <- train(y~., data = f, method="lm")
pred <- predict(fit, newdata = f2)
confusionMatrix(pred, f2)

输出(主要问题)

Error in sort.list(y) : 'x' must be atomic for 'sort.list'
Have you called 'sort' on a list?

如果我使用 table 函数而不是 confusionMatrix,我会得到以下结果:

Error in table(pred, data = f2) : all arguments must have the same length

虽然 pred 的长度为 5,f2$y 的长度也是 5。

顺便说一句,这个例子中的 fit 函数有时也会给我一个我也不明白的错误。

Warning message:
In nominalTrainWorkflow(x = x, y = y, wts = weights, info = trainInfo, :
There were missing values in resampled performance measures.

编辑:语法

最佳答案

我认为您遇到了三个问题。

  1. confusionMatrix期待两个向量,但是 f2是一个数据框。相反,做 confusionMatrix(pred, f2$y)

  2. 但这会产生不同的错误:The data must contain some levels that overlap the reference. 。这就提出了第二个问题。如果您查看 f2 的预测值和实际值,没有重叠。本质上,ff2代表 x 之间完全不同的关系和y 。您可以通过绘图看到这一点。

    library(tidyverse)
    theme_set(theme_classic())

    ggplot(bind_rows(f=f,f2=f2, .id="source"), aes(x,y,colour=source)) +
    geom_point() +
    geom_smooth(method="lm")

    enter image description here

    此外,假数据中没有噪声,因此拟合非常完美(RMSE = 0 且 R 平方 = 1)。

    fit
    Resampling results:

    RMSE Rsquared
    1.650006e-15 1
  3. 假数据集具有连续的结果变量。然而,混淆矩阵是检查分类模型质量的工具,即结果是分类的而不是连续的数据。在这种情况下,您将使用逻辑回归、随机森林等适合分类的模型,而不是线性回归模型。然后你会使用 confusionMatrix将预测类(class)与实际类(class)进行比较。

这是一个例子:

library(caret)

# Fake data
set.seed(100)
f = data.frame(y = c(rep(c("A","B"), c(100,25)),rep(c("B","A"), c(100,25))),
x = c(rnorm(125, 1, 1), rnorm(125, 3, 1)))

# Train model on training data
set.seed(50)
idx = sample(1:nrow(f), 200) # Indices of training observations
fit <- train(y ~ ., data = f[idx,], method="glm")

# Get predictions on probability scale
pred <- predict(fit, newdata=f[-idx, ], type="prob")

# Create data frame for confusion matrix
results = data.frame(pred=ifelse(pred$A < 0.5, "B","A"),
actual=f$y[-idx])

confusionMatrix(results$pred, results$actual)
Confusion Matrix and Statistics

Reference
Prediction A B
A 16 7
B 6 21

Accuracy : 0.74
95% CI : (0.5966, 0.8537)
No Information Rate : 0.56
P-Value [Acc > NIR] : 0.006698

Kappa : 0.475
Mcnemar's Test P-Value : 1.000000

Sensitivity : 0.7273
Specificity : 0.7500
Pos Pred Value : 0.6957
Neg Pred Value : 0.7778
Prevalence : 0.4400
Detection Rate : 0.3200
Detection Prevalence : 0.4600
Balanced Accuracy : 0.7386

'Positive' Class : A

关于R-confusionMatrix()-sort.list(y) : 'x' must be atomic for 'sort.list' 中的错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45774944/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com