R/plm 按索引提取残差-6ren

R/plm 按索引提取残差

转载作者：行者123 更新时间：2023-12-04 00:43:27

34

4

我有一个使用以下方法创建的 plm 对象:

require(plm)
plm1 <- plm(Sepal.Length ~ Petal.Length + Petal.Width, data = iris, index = "Species")

我正在尝试提取残差以手动计算 Species 的 r 平方，似乎无法将 pseries 对象操作为像矩阵或 data.frame 这样可用的东西。

> data.frame(resid(plm1))
Error in as.data.frame.default(x[[i]], optional = TRUE) : 
  cannot coerce class '"pseries"' into a data.frame

如果我有类似的东西会很好:

> df1 <- data.frame(time = rep(1:10,15), Species = iris$Species, resid1 = runif(150))
> head(df1)
  time Species    resid1
1    1  setosa 0.7038776
2    2  setosa 0.2164597
3    3  setosa 0.1988884
4    4  setosa 0.9311872
5    5  setosa 0.7087211
6    6  setosa 0.9914357

我可以使用 ddply 或聚合来找到每个物种的 rsquared。

有什么建议？

最佳答案

这是一个老问题，但我想指出一些容易遗漏并且可能导致严重错误的内容。 previous answer by dickoa是正确的，但我想我会澄清为什么需要这样的解决方法，因为它可能并不明显。

阅读时another thread我学到了以下内容:如前所述 here , plm 不一定按照提供给函数的顺序保存数据。这意味着只需使用 residuals()如果您不小心，在 plm 对象上使用函数然后将其加入您的数据可能会导致错误的残差分组到错误的数据行!作为示例，请考虑以下内容:

require(plm)
data("Gasoline") # The Gasoline dataset from the plm package

plm1 <- plm(lgaspcar ~ lincomep + lrpmg + lcarpcap, data=Gasoline, method = "within", index = c("country", "year"))

coef(plm1)
  lincomep      lrpmg   lcarpcap 
 0.6622497 -0.3217025 -0.6404829 

head(residuals(plm1))
          1           2           3           4           5           6 
-0.18814207 -0.19642727 -0.14874420 -0.12476346 -0.12114060 -0.08684045

注意我们得到的残差。现在让我们更改数据集的排序顺序。这不应该改变分析中的任何内容。

set.seed(1234)
Gasoline2 <- Gasoline[order(runif(nrow(Gasoline))), ] # We just change the order of the rows.

plm2 <- plm(lgaspcar ~ lincomep + lrpmg + lcarpcap, data=Gasoline2, method = "within", index = c("country", "year"))

coef(plm2)
  lincomep      lrpmg   lcarpcap 
 0.6622497 -0.3217025 -0.6404829 

head(residuals(plm2))
        258           7          64          73         268         186 
-0.18814207 -0.19642727 -0.14874420 -0.12476346 -0.12114060 -0.08684045

乍一看，这似乎很好；估计系数与以前相同。但是，请注意残差的显示顺序与我们移动行之前的顺序相同。唯一改变的是与残差关联的名称现在反射(reflect)了它们在数据中的新位置。因此，在数据中的第 1 行进行后重新排序的观察结果是在第 258 行上进行了预重新排序。

Gasoline2[1, ]
    country year lgaspcar lincomep     lrpmg  lcarpcap
258  SWEDEN 1970 3.989372 -7.73261 -2.733592 -8.164506

Gasoline[258, ]
    country year lgaspcar lincomep     lrpmg  lcarpcap
258  SWEDEN 1970 3.989372 -7.73261 -2.733592 -8.164506

这意味着，如果我们使用 Gasoline2 作为我们正在使用的数据集，那么使用类似 cbind() 的函数在 Gasoline2和 residuals(plm2)将导致错误的残差与观测值相关联。

head(cbind(Gasoline, residuals(plm1)))
  country year lgaspcar  lincomep      lrpmg  lcarpcap residuals(plm1)
1 AUSTRIA 1960 4.173244 -6.474277 -0.3345476 -9.766840     -0.18814207
2 AUSTRIA 1961 4.100989 -6.426006 -0.3513276 -9.608622     -0.19642727
3 AUSTRIA 1962 4.073177 -6.407308 -0.3795177 -9.457257     -0.14874420
4 AUSTRIA 1963 4.059509 -6.370679 -0.4142514 -9.343155     -0.12476346
5 AUSTRIA 1964 4.037689 -6.322247 -0.4453354 -9.237739     -0.12114060
6 AUSTRIA 1965 4.033983 -6.294668 -0.4970607 -9.123903     -0.08684045

head(cbind(Gasoline2, residuals(plm2)))
     country year lgaspcar  lincomep      lrpmg  lcarpcap residuals(plm2)
258   SWEDEN 1970 3.989372 -7.732610 -2.7335921 -8.164506     -0.18814207
7    AUSTRIA 1966 4.047537 -6.252545 -0.4668377 -9.019822     -0.19642727
64   DENMARK 1966 4.233643 -5.851866 -0.3961885 -8.681541     -0.14874420
73   DENMARK 1975 4.033015 -5.612967 -0.3939543 -8.274632     -0.12476346
268 SWITZERL 1961 4.441330 -6.111640 -0.8655847 -9.158229     -0.12114060
186    JAPAN 1974 4.007964 -5.852553 -0.1909064 -8.846520     -0.08684045

正如我们在上面看到的，残差被分配到 Gasoline2 示例中的错误行。

发生什么了？好吧，正如前面提到的， plm不保留观察的顺序。使用 attr()函数 dickoa 在之前的回答中指出，我们可以看到 plm按国家和年份重新组织数据。

head( attr(residuals(plm2), "index") )
  country year
1 AUSTRIA 1960
2 AUSTRIA 1961
3 AUSTRIA 1962
4 AUSTRIA 1963
5 AUSTRIA 1964
6 AUSTRIA 1965

这就是原始汽油数据的结构方式，这就是残差以相同顺序显示的原因。

因此，我们可以使用 attr(residuals(plm2), "index") 的事实。为我们提供残差及其相应的国家和年份指标，以便将残差添加到原始数据中。正如所指出的 here , plyr包对此非常有帮助。

require(plyr)
resids2 <- data.frame(residual = residuals(plm2), attr(residuals(plm2), "index"))
Gasoline2$year <- factor(Gasoline2$year) # Needed since resids2$year is a factor, and Gasoline2$years was an integer. plyr does not accept them to be of different types.
Gasoline2 <- join(Gasoline2, resids2, by = c("country", "year"))

head(Gasoline2)
   country year lgaspcar  lincomep      lrpmg  lcarpcap    residual
1   SWEDEN 1970 3.989372 -7.732610 -2.7335921 -8.164506 -0.02468148
2  AUSTRIA 1966 4.047537 -6.252545 -0.4668377 -9.019822 -0.02479759
3  DENMARK 1966 4.233643 -5.851866 -0.3961885 -8.681541  0.03175032
4  DENMARK 1975 4.033015 -5.612967 -0.3939543 -8.274632 -0.06575219
5 SWITZERL 1961 4.441330 -6.111640 -0.8655847 -9.158229 -0.05789130
6    JAPAN 1974 4.007964 -5.852553 -0.1909064 -8.846520 -0.21957156

这给了我们正确的结果。

关于R/plm 按索引提取残差，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25127840/

34

4

0

文章推荐： vim - 我可以在 `vim -u NONE` 之后启用 Netrw 吗？

文章推荐： ssis - 在 SSIS 包中发送带有附件的邮件任务

文章推荐： .htaccess - 使用 .htaccess 阻止对 url 的访问

文章推荐： asp.net - MVC4 在单个 View 上显示多个部分 View 的问题

css - 滑出抽屉在手机上 FPS 差
我的应用程序上有一个抽屉式菜单，它在桌面上运行良好，但在任何移动设备上我都看到一个丑陋的卡顿。在 header 中，我有一个 bool 值，在单击汉堡包时将其设置为 true/false，这会将 o
algorithm - 为什么通过插入元素构建堆的运行时间比使用 heapify 差？
在CLRS书中，自上而下的heapify构建堆的复杂度为O(n)。也可以通过反复调用插入来建立堆，其最坏情况下的复杂度为nlg(n)。我的问题是:对于后一种方法性能较差的原因，是否有任何见解？我问
python - Relu 性能比 sigmoid 差？
我在所有层和输出上使用 sigmoid，得到的最终错误率为 0.00012，但是当我使用理论上更好的 Relu 时，我得到了最差的结果。谁能解释为什么会发生这种情况？我正在使用一个非常简单的 2 层实
sql - 百分位分数，有多少人做的比你做的 postgresql 差
我想计算有多少人(百分比)在我的测试中表现比我差。这是我想要的结果: student | vak | resultaat | percentielscore ---------+-------
c# - PLINQ 的性能比通常的 LINQ 差
令人惊讶的是，使用 PLINQ 并没有在我创建的一个小测试用例上产生好处；事实上，它比通常的 LINQ 还要糟糕。测试代码如下: int repeatedCount = 10000000;
ios - MKOverlayRenderer 比 MKOverlayView 差？
我正在开发一个高度基于 map 的应用程序，并且我正在使用 MBXMapKit 框架(基于 MapKit 构建)以便在我的 MapView 中显示自定义 Mapbox map 图 block 而不是默
c# - DbContext 查询性能较 ObjectContext 差
这个问题在这里已经有了答案: Is it always better to use 'DbContext' instead of 'ObjectContext'? (1 个回答) 关闭 9 年前。
video - FFmpeg: "filter_complex"导致质量比 "vf"差
我正在尝试使用 FFmpeg 进行一些复杂的视频转码(例如连接多个文件)。为此，我一直在尝试使用 filter_complex，但我注意到我之前使用普通视频过滤器看到的质量略有下降。为了仔细检查，我
r - mclapply() 的性能明显比 lapply() 差。我怎样才能加快速度？
我是 R 中并行计算的新手，想使用并行包来加速我的计算(这比下面的示例更复杂)。但是，与通常的 lapply 函数相比，使用 mclapply 函数的计算时间更长。我在我的笔记本电脑上安装了一个全新
machine-learning - BERT 的表现比 word2vec 差
我正在尝试使用 BERT 解决文档排名问题。我的任务很简单。我必须对输入文档进行相似度排名。这里唯一的问题是我没有标签——所以它更像是一个定性分析。我正在尝试一系列文档表示技术——主要是 word2
c++ - Boost Geometry:计算 vector 差
如何计算两点的差？例如:(5,7) - (2,3) = (3,4) using point = boost::geometry::model::point point p1 (2, 3); point
scenekit - 基本形状并/交/差 : too blind to see?
我是 ARKit 的新手，在检查了一些示例代码后，如 https://developer.apple.com/sample-code/wwdc/2017/PlacingObjects.zip我想知道是
python - 使用相同参数时，GridSearchCV 的性能比普通 SVM 差
社区。我正在编写一些机器学习代码，将一些数据分类。我尝试了不同的方法，但是当我使用SVM时，我遇到了这个问题。我有一组简单的数据(3 个类别，6 个特征)，当我使用具有固定参数(C=10、gam
php - 为什么 count 比 $count 差
我只是在查看不同问题的答案以了解更多信息。我看到一个answer这表示在 php 中编写是不好的做法 for($i=0;$i
PHP 多 cURL 性能比顺序 file_get_contents 差
我正在编写一个界面，我必须在其中启动 4 个 http 请求才能获取一些信息。我用两种方式实现了接口(interface): 使用顺序 file_get_contents。使用多 curl 。我
java - 为什么 haskell 的性能比 java 差
我想用随机数来愚弄一下，如果 haskell 中的随机生成器是否均匀分布，因此我在几次尝试后写了下面的程序(生成的列表导致堆栈溢出)。 module Main where import System.
python - Tensorflow C++ 评估性能比 Python 差
我在 Tensorflow 中构建了一个 LSTM 分类器(使用 Python)，现在我正在做一系列基准测试来衡量执行性能。基准测试代码加载在训练期间保存的模型并针对大量输入执行它。我有一个 Pyth
reactjs - React.memo 性能比 React.PureComponent 差
不久前，我重构了单元格渲染器组件以实现性能提升(我有一个巨大的表格)。我从功能性无状态组件重构为 PureComponent。例如: import React from 'react'; import
java - 为什么在我的 BufferedReader 中使用*更大*的缓冲区时性能会*差*？
当我改变缓冲区的大小时，我得到了无法从 BufferedReader 解释的奇怪结果。我曾强烈期望性能会随着缓冲区大小的增加而逐渐增加， yield 递减设置相当快，此后性能或多或少会持平。但看起来
java - 为什么我的 bagOfWord 朴素贝叶斯算法的性能比 wekas StringToWordVector 差？
我正在尝试为 1000 个正面+负面标签的 IMDB 评论 (txt_sentoken) 和 Java 的 weka API 构建一个基于朴素贝叶斯的分类器。由于我不知道 StringToWordV

首页

博学

6Ren·AI

商城

R/plm 按索引提取残差