r - 标准化 R 中的定性变量以执行 glm、glm.nb 和 lm-6ren

r - 标准化 R 中的定性变量以执行 glm、glm.nb 和 lm

转载作者：行者123 更新时间：2023-12-04 12:09:07

24

4

我想标准化生物数据集的变量。我需要使用不同的响应变量运行 glm、glm.nb 和 lm。

该数据集包含按地块划分的给定树种的数量(所有地块大小相同)和一系列定性变量:植被类型、土壤类型和牛的存在/不存在。

数据

library(standardize)
library(AICcmodavg)

set.seed(1234)
# Short version of the dataset missing other response variables
dat <- data.frame(Plot_ID = 1:80,
                  Ct_tree = sample(x = 1:400, replace = T),
                  Veg = sample(x = c("Dry", "Wet", "Mixed"), size = 80, replace = T),
                  Soil = sample(x = c("Clay", "Sandy", "Rocky"), size = 80, replace = T),
                  Cattle = rep(x = c("Yes", "No"), each = 5))

问题

由于所有解释变量都是分类变量，我不确定是否可以生成具有标准化系数和标准化标准误差的标准化 lm 模型。

如果我尝试使用 scale() 通过基数 R 进行标准化，则会出现错误，因为解释变量不是数字。我正在尝试使用标准化 R 包，但我不确定这是否满足我的需求。

型号

m1 <- standardize(formula = Ct_tree ~ 1, data = dat, family = "gaussian", scale = 1)
# Error in standardize(formula = Ct_tree ~ 1, data = dat, family = "gaussian": no variables in formula
m2 <- standardize(formula = Ct_tree ~ Veg, data = dat, family = "gaussian", scale = 1)
m3 <- standardize(formula = Ct_tree ~ Soil, data = dat, family = "gaussian", scale = 1)
m4 <- standardize(formula = Ct_tree ~ Cattle, data = dat, family = "gaussian", scale = 1)
m5 <- standardize(formula = Ct_tree ~ Veg + Soil, data = dat, family = "gaussian", scale = 1)
m6 <- standardize(formula = Ct_tree ~ Veg + Cattle, data = dat, family = "gaussian", scale = 1)
m7 <- standardize(formula = Ct_tree ~ Soil + Cattle, data = dat, family = "gaussian", scale = 1)
m8 <- standardize(formula = Ct_tree ~ Veg + Soil + Cattle, data = dat, family = "gaussian", scale = 1)

# m1_st <- standardize(formula = m1$formula, data = m1$data)
m2_st <- lm(formula = m2$formula, data = m2$data)
# [...] 
m8_st <- lm(formula = m8$formula, data = m8$data)

# Produce a summary table of AICs
models <- list(Veg = m2_st, Soil = m3_st, Cattle = m4_st, VegSoil = m5_st, VegCattle = m6_st, SoilCattle = m7_st, VegSoilCattle = m8_st)
aic_tbl <- aictab(models, second.ord = TRUE, sort = TRUE)

问题

1) 我是否正确实现了标准化包？

2) 我的代码是否实现了我所追求的标准化？

3) 当我调用 mi$data 时，看起来响应变量 (Ct_tree) 已经标准化。这是应该发生的事情吗？我认为标准化会发生在解释变量上，而不是响应上。

4) 如何标准化截距(Ct_tree ~ 1)？也许它不需要标准化，但我仍然需要它在最终的 AIC 表中来比较所有模型。

5) 我还有其他不存在/存在的响应变量(分别记录为 0 和 1)。使用与上述相同的过程对这些列进行标准化在统计上是否正确？标准化包生成与原始相同的存在/不存在列。但是，如果我通过函数 scale() 从基数 R 重新调整此类列，则生成的数字是正数和负数，带小数，并且我不能应用二项式族。

6) 如果我将定性解释变量重新编码为序数(例如，土壤 = 0 表示粘土，1 表示沙地，2 表示岩石)，然后缩放它们，这在统计上是否正确？

最佳答案

我的回答可能有偏见。另外，我是生物学家而不是数学家，所以有更好数学背景的人可以给出更合理的答案。

第一个问题是为什么我们需要标准化？基本上，我们使用它是为了比较不同预测变量的效果大小。假设我们想估计植物质量 (M) 如何取决于土壤中的氮浓度 (N) 和水的可用性 (W)。将有两个具有不同单位和不同幅度的预测变量。两个预测变量都是连续的，这一点非常重要。我们可以从原始数据中估计回归系数。让我们假设最终的生物量可以表示为

M = 0.1 * N + 0.2 * W + 误差

那么，哪个因素更重要呢？当然，我们不能仅从这些系数中推断出这一点。为了进行比较，我们需要考虑因素的单位和可变性。因此，仅报告系数可能不足以了解您的创立。标准化可能是这种情况的解决方案。

现在让我们假设我们得到了相同的回归系数，但预测变量以前是标准化的。在这种情况下，很明显，当氮浓度变化 1 个标准偏差单位时，植物质量变化 0.1。水也是如此(每 1 sd 单位为 0.2 质量单位)。如果您的实验结合了广泛的水和氮条件，您可以建议水比氮重要两倍。因此，标准化对于比较连续预测变量的效果很有用。

在您的情况下，预测变量是分类的，即因素。您最初的问题是“不同条件组的树木数量是否不同？”。在这里，您的结果将有所不同。例如，粘土土壤上每块地的树木平均比沙质土壤多 50 棵树。这是一个很明显的结果。如果某些条件导致树木数量发生较大变化，则其影响会更大。所以似乎不需要标准化。

不过，您可以再问一个问题“50 棵树的差异是否很大？”。如果平均树数为 10000 棵树，那么增加 50 棵树是可以忽略的。但是如果每个地块平均有 100 棵树，那么变化真的很大。为了处理这样的问题，您可以标准化您的响应变量。因此，您将获得标准偏差单位的差异(类似于 Cohen 的 d)。

无论如何，标准化或不标准化的选择应该由您根据您在该领域的专业知识来决定。如果标准化能帮助你解释你的结果，那就去做吧。如果您认为标准偏差单位的差异更具说明性并且对您的读者更容易理解，那么就去做。
至于我，我建议保留原始值，但以相对单位 (%) 呈现结果。例如，粘土上的树木比沙土上的树木多 15%。但这又应该是你的决定。

作为结论:

您不需要对分类变量进行标准化。相同
适用于二元预测器。

您可以标准化您的回复
如果您认为 SD 单位的差异更大
令人信服。为此 base::scale就足够了。

用数字替换分类变量(并将它们视为数字)是
在你的情况下不是一个好主意。

附言抱歉语法不好。

关于r - 标准化 R 中的定性变量以执行 glm、glm.nb 和 lm，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53954875/

24

4

0

文章推荐： authentication - Shiro，多重身份验证

文章推荐： do not localize to , 但到默认语言环境的验证/转换错误

macos - 执行 wine != 执行 `which wine`
我有一个“有趣”的问题，即以两种不同的方式运行 wine 会导致: $> wine --version /Applications/Wine.app/Contents/Resources/bin/wi
javascript - CRONTAB 执行 Python，使用 puppeteer 执行 Node 来进行网页抓取不起作用
我制作了这个网络抓取工具来获取网页中的表格。我使用 puppeteer (不知道 crontab 有问题)、Python 进行清理并处理数据库的输出但令我惊讶的是，当我执行它时 */50 * * *
javascript - 对 javascript 函数的 Objective-C 调用何时被调用/执行，何时不被调用/执行？
JavaScript 是否被调用或执行取决于什么？准确地说，我有两个函数，它们都以相同的方式调用: [self.mapView stringByEvaluatingJavaScriptFromStri
python - 为什么使用 statsmodels 执行 OLS 和使用 scikit 执行 PooledOLS 时会得到相同的结果？
我目前正在使用 python 做一个机器学习项目(这里是初学者，从头开始学习一切)。只是想知道 statsmodels 的 OLS 和 scikit 的 PooledOlS 使用我拥有的相同面板数据
c# - 通过 Enterprise Guide 执行 SAS 和从 .Net 执行 IOM 之间的区别
在使用集成对象模型 (IOM) 后，我可以执行 SAS 代码并将 SAS 数据集读入 .Net/C# 数据集 here . 只是好奇，使用 .Net 作为 SAS 服务器的客户端与使用 Enterpr
javascript - jQuery 不会使用 animate : top 200px function. 执行，但它会使用 animate: height 执行
有一些直接的 jQuery 在单击时隐藏打开的 div 未显示，但仍将高度添加到导航中以使其看起来好像要掉下来了。这个脚本工作正常: $(document).ready(funct
java - 为什么我的代码使用 'IF' 执行 'ELSE' 和 '==' ，但不使用 '.equals' 执行？
这个问题已经有答案了: How do I compare strings in Java? (23 个回答) 已关闭 4 年前。这里是 Java 新手，我正在使用 NetBeans 尝试一些简单的代
python - Keras 2.0.8 仅使用 Python 3.x 执行 1 个 epoch，使用 2.x 执行 10 个
如果我将它切换到 Python 2.x，它执行 10。这是为什么？训练逻辑回归模型 import keras.backend as
JavaScript 执行
我有两个脚本，它们包含在 HTML 正文中。在第一个脚本中，我初始化一个 JS 对象，该对象在第二个脚本标记中引用。 ... obj.a = 1000; obj.
执行@number时的Java链接列表错误消息
每当我运行该方法时，我都会收到一个带有数字的错误以下是我的代码。 public String getAccount() { String s = "Listing the accounts";
java - 执行 while 循环以显示菜单
我已经用 do~while(true) 创建了我的菜单；但是每次用户输入一个数字时，它不会运行程序，而是再次显示菜单!你怎么看？ //我的主要方法 public static void main(St
ipython - 执行/命令完成时通知
执行命令后，如何让IPython通知我？我可以使用铃声/警报还是通过弹出窗口获取它？我正在OS X 10.8.5的iTerm上运行Anaconda。最佳答案使用最新版本的iTerm，您可以在she
java - Swing 执行
您好，我刚刚使用菜单栏为 Swing 编写了代码。但是问题出现在运行中。我输入: javac Menu.java java Menu 它没有给出任何错误，但 GUI 没有显示。这是我的源代码以供引用:
.net - 执行.NET应用程序时验证Authenticode签名
我觉得这里缺少明显的东西，但是我看不到它写在任何地方。我使用Authenticode证书对可执行文件进行签名，但是当我开始学习有关它的更多信息时，我对原样的值(value)提出了质疑。签名的exe
按钮单击事件上的 JavaScript 执行
我正在设计一个应用程序，它使用 DataTables 中的预定义库来创建数据表。我想对数据表执行删除操作，为此应在按钮单击事件上执行 java 脚本。 $(document).ready(functi
Haskell - 执行 while 循环
我是 Haskell 新手，如果有人愿意帮助我，我会很高兴!我试图让这个程序与 do while 循环一起工作。第二个 getLine 命令的结果被放入变量 goGlenn 中，如果 goGlenn
java - 执行 while 循环时出现问题
我有一个用 swing 实现迷你游戏的程序，在主类中我有一个循环，用于监听游戏 map 中的 boolean 值。使用 while 实现的循环不会执行一条指令，如果它是唯一的一条指令，我不知道为什么。
java - 执行.jar时将OJBDC添加到类路径
我正在尝试开发一个连接到 Oracle 数据库并执行函数的 Java 应用程序。如果我在 Eclipse 中运行该应用程序，它可以工作，但是当我尝试在 Windows 命令提示符中运行 .jar 时，
java future 执行
我正在阅读有关 Java 中的 Future 和 javascript 中的 Promises 的内容。下面是我作为示例编写的代码。我的问题是分配给 future 的任务什么时候开始执行？当如下行创
java - 执行 && 最有效的方法？
我有一个常见的情况，您有两个变量(xSpeed 和 ySpeed)，当它们低于 minSpeed 时，我想将它们独立设置为零，并在它们都为零时退出。最有效的方法是什么？目前我有两种方法(方法2更干净

首页

博学

6Ren·AI

商城

r - 标准化 R 中的定性变量以执行 glm、glm.nb 和 lm