使用 lm 对独特因子组合的子集进行回归-6ren

使用 lm 对独特因子组合的子集进行回归

转载作者：行者123 更新时间：2023-12-02 23:41:43

25

4

我想对由分组变量的唯一组合定义的子集自动执行简单的多元回归。我有一个数据框，其中包含多个分组变量 df1[,1:6] 和一些自变量 df1[,8:10] 以及响应 df1[,7]。

这是数据的摘录。

structure(list(Surface = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("NiAu", "Sn"), class = "factor"), Supplier = structure(c(1L, 1L, 1L, 2L, 2L, 1L, 1L, 2L, 2L, 2L, 2L), .Label = c("A", "B"), class = "factor"), ParticleSize = structure(c(1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("3", "5"), class = "factor"), T1 = structure(c(2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 1L, 1L), .Label = c("130", "144"), class = "factor"), T2 = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L), .Label = "200", class = "factor"), O2 = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L), .Label = "1300", class = "factor"), Shear = c(56.83, 67.73, 78.51, 62.61, 66.78, 60.89, 62.94, 76.34, 70.56, 70.4, 54.15), Gap = c(373, 450, 417, 450, 406, 439, 439, 417, 439, 441, 417), Clearance = c(500.13, 509.85, 495.97, 499.55, 502.66, 505.33, 500.32, 503.28, 507.44, 500.5, 498.39), Void = c(316, 343, 89, 247, 271, 326, 304, 282, 437, 243, 116)), .Names = c("Surface", "Supplier", "ParticleSize","T1", "T2", "O2", "Shear", "Gap", "Clearance", "Void"), class = "data.frame", row.names = c(NA, -11L))

使用 unique(df1[,1:6]) 返回分组变量的 5 个因子组合。所以我应用 lm() 函数的子集应该有 5 个。我的电话看起来是这样的

df1.fit.by<-with(df1,by(df1,df1[,1:6], function(x) lm(Shear~Gap+Clearance+Void,data=x)))
sapply(df1.fit.by,coef)

问题 1:它返回一个包含 16 个列表条目的列表。显然，它计算了前六个分组变量的所有可能的因素组合。 (摘录中V5+V6只有一个水平，而V1:4有两个水平。导致2^4=16)但它应该只使用数据中真实存在的因子组合。所以我认为 by() 不是实现这一目标的正确函数。有什么建议吗？
问题 2:我发现引用列索引比引用变量名更容易。所以我最初尝试以 lm(df1[,7]~df1[,8]+df1[,9]) 的方式使用 lm() 函数。那没有成功。因为我总是访问整个 df1 数据帧而不是子集。因此，我可能应该将因子组合的行索引传递给 lm() 函数，而不是完整的数据帧。

我认为问题 1 和问题 2 的解决方案在某种程度上是相关的，并使用另一个子集函数来解决。如果有人能尝试解释我的错误在哪里，那就太好了。如果可能的话，我会坚持使用标准包，因为我想提高对 R 的理解。谢谢

编辑:变量赋值中的一个小错误

最佳答案

您可以使用plyr包:

require(plyr)
list_reg <- dlply(df1, .(Surface, Supplier, ParticleSize, T1, T2), function(df) 
  {lm(Shear~Gap+Clearance+Void,data=df)})
#We have indeed five different results
length(list_reg)
#That's how you check out one particular regression, in this case the first
summary(list_reg[[1]])

函数dlply采用一个data.frame(这就是d...代表的意思)，在你的例子中是df1，并且返回一个列表(这就是 .l... 所代表的)，在您的情况下由五个元素组成，每个元素包含一个回归的结果。

在内部，您的 df1 根据 指定的列分为五个子数据帧。(Surface、Supplier、ParticleSize、T1、T2) 和函数 lm(Shear~Gap+Clearance+Void,data=df) 应用于每个子 data.frame。

要更好地了解 dlply 的真正作用，只需调用

list_sub_df <- dlply(df1, .(Surface, Supplier, ParticleSize, T1, T2))

您可以查看将应用lm的每个子data.frame。

最后只是一个一般说明:paper软件包作者 Hadley Wickham 的文章确实很棒:即使您最终不会使用他的软件包，了解拆分-应用-组合方法仍然非常好。

编辑:

我刚刚进行了快速搜索，正如预期的那样，之前已经对此进行了更好的解释，因此请务必阅读此 SO邮政。

编辑2:

如果您想直接使用列号，请尝试此操作(取自此 SO 帖子):

 list_reg <- dlply(df1, names(df1[, 1:5]), function(df) 
      {lm(Shear~Gap+Clearance+Void,data=df)})

关于使用 lm 对独特因子组合的子集进行回归，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9096813/

25

4

0

文章推荐： postsharp - 在整个解决方案的调试版本中禁用 Postsharp

文章推荐： debugging - Scala Eclipse IDE 突然忽略断点

文章推荐： powershell - 将成员/列追加到PSObject

r - lm() 和 predict.lm() 的奇怪行为取决于显式命名空间访问器的使用
我对 lm 的一些令人不安的行为感兴趣函数和相关的predict.lm R 中的函数。splines基础包提供函数bs生成 b 样条展开，然后可用于使用 lm 拟合样条模型，一个通用的线性模型拟合函数
R: minpack.lm::nls.lm 失败但结果良好
我使用 minpack.lm 包中的 nls.lm 来拟合许多非线性模型。由于初始参数估计时的奇异梯度矩阵，它经常在 20 次迭代后失败。问题是当我在失败之前查看迭代(trace = T)时，我可
r - 为什么 do(lm...) 和 geom_smooth(method ="lm") 之间有区别？
我有一个稍微进入饱和状态的外部校准曲线。所以我拟合了一个二阶多项式和一个测量样本的数据框，我想知道其中的浓度。 df_calibration=structure(list(dilution = c(0
r - 为什么有 plot.lm 帮助页面，而函数 plot.lm 不存在
我试图弄清楚默认 r plot 的残差与拟合图中使用了哪种平滑线对于 lm对象，所以我通过输入 ?plot.lm 查看了帮助页面，因为据我了解 .是如何定义不同对象类型的这些默认行为的。正如预期的那
r - lm(offense$R ~ offence$OBP) 和 lm(R ~ OBP) 有什么区别？
我正在尝试使用 R 创建一个线性模型并使用它来预测一些值。主题是棒球数据。如果我这样做: obp <- lm(offense$R ~ offense$OBP) predict(obp, newdata
r - 使用 lm() 和 scale() 的标准化回归系数不同于使用 lm.beta() 或 cor() 的回归系数
我有两个变量，我想找到它们之间的相关性。问题是，根据我使用的方法，我似乎得到了不同的结果。我知道的一种方法是使用 scale() 函数中的自变量和因变量运行 lm() 函数。所以下面的变量看起来像
C Makefile 故障 : "gcc: -lm: linker input file unused because linking not done mpicc -lm 3D-ELM.o -o 3D-ELM.exe"
我在使用 C Makefile 时遇到了一些问题。 Makefile 的内容如下: PROJECT = 3D-ELM MPICC = mpicc CLAGS = -g -O3 LIBS = -lm S
lm 使用插入符号火车的结果
我使用 caret R 包作为一个非常方便的建模包装器。虽然这是一个奇怪的用法，但在使用模型类型 =“lm”和“无”的交叉验证时，我在从模型中提取结果时遇到了一些麻烦。参见下面的示例: library
r - 用模型矩阵而不是公式调用 lm
我想使用 lm 在 R 中拟合线性模型获得总模型拟合的系数估计值和 p 值 + p 值(类似方差分析)，因此基本上来自 summary.lm 的输出. 问题是我想使用我自己的模型矩阵，而不是在调用 l
r - 使用新数据预测.lm
我建了一个 lm不使用 data= 的模型范围: m1 <- lm( mdldvlp.trim$y ~ gc.pc$scores[,1] + gc.pc$scores[,2] + gc.pc$sco
r - 按函数应用于 lm()
我是 R 的新手，我只是在学习 apply功能及其工作方式。我只想从 lm 中提取系数适合几年内产品颜色和品牌的变量 x。我知道我可以创建一个 for 循环并按型号年份对数据进行子集化并拟合它，但我
R:计算多个变量的行向 lm()
如何计算 df 中存储在列中的多个变量的行向 lm()/系数？我有这种数据(只是例子): set.seed(1) foo trialNumber Nr1 Nr2
从 `lm()` 恢复原始变量名
我对在 ggplot2 中自动绘制模型很感兴趣。基于 discussion在 ggplot2 问题跟踪器上，我相信像下面这样的包装器应该可以工作。 geom_predict Warning: Com
r - `lm`摘要未显示所有因子水平
我正在对多个属性(包括两个分类属性B和F)进行线性回归，但是我没有获得每个系数水平的系数值。 B具有9个级别，而F具有6个级别。当我最初运行模型(带有截距)时，我得到了8个B系数和5个F系数，我将其理
r - lm() 函数中的子集参数如何工作？
我一直试图弄清楚 subset R 中的参数 lm()功能有效。特别是以下代码对我来说似乎很可疑: data(mtcars) summary(lm(mpg ~ wt, data=mtcars))
r - 以多种结果执行 lm
我有以下数据框 > df df2 Economy ConditionA ConditionB ConditionC ConditionD 1 FRANCE 9
r - lm 中因子的奇怪名称
我正在使用来自包鼠标的男孩数据集的数据。当我对其中一个因子变量 (phb) 运行回归时，输出会显示这些因子，但给它们的名称与数据中的名称不同。我想知道为什么会这样。有没有办法纠正它？ library(
r - lm() 如何知道哪些预测变量是分类的？
通常，我和你(假设你不是机器人)很容易识别预测器是分类的还是定量的。例如，性别显然是分类的。您的最后一票可以分类。基本上，我们可以轻松识别分类预测变量。但是当我们在 R 中输入一些数据时会发生什么，
R:lm 对象的标准错误输出
我们从中得到了一个 lm 对象并想提取标准错误 lm_aaa<- lm(aaa~x+y+z) 我知道函数摘要、名称和系数。但是，摘要似乎是手动访问标准错误的唯一方法。你知道我怎么能输出se吗？谢
r - 在测试数据中具有未知因子水平的predict.lm()
我正在拟合一个模型来分解数据并进行预测。如果newdata中的predict.lm()包含模型未知的单个因子级别，则所有predict.lm()都会失败并返回错误。有没有一种好方法可以让predic

首页

博学

6Ren·AI

商城

使用 lm 对独特因子组合的子集进行回归