- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在处理一个大型数据集(700 万行),试图了解各个自变量与因变量之间的相关性。当我运行 pcor(dataset) 时,如果与运行 cor(dataset) 时相比,这会导致更高的相关性。
我的数据集有 6 个因变量和 84 个自变量。我找到了 每个 因变量与 84 个独立变量的偏相关。
我的自变量是文本类型(75 个类别)的字数,以及一些其他社会变量(所有数字)等性别。
我的问题是:我不确定为什么在 R 中使用 pcor() 时相关性高,而使用 cor() 时相关性非常弱。这是偏相关的正常行为吗?
最佳答案
如果您想知道偏相关系数是否可以大于“完全”相关系数,请考虑以下示例。
让我们看一下 ppcor
reference manual 中的示例数据
df <- data.frame(
hl = c(7,15,19,15,21,22,57,15,20,18),
disp = c(0.000,0.964,0.000,0.000,0.921,0.000,0.000,1.006,0.000,1.011),
deg = c(9,2,3,4,1,3,1,3,6,1),
BC = c(1.78e-02,1.05e-06,1.37e-05,7.18e-03,0.00e+00,0.00e+00,0.00e+00 ,4.48e-03,2.10e-06,0.00e+00))
根据原始论文,数据涵盖了酵母蛋白中序列和功能进化之间的关系,可从 [Drummond et al., Molecular Biology and Evolution 23, 327–337 (2006)] 获得。 .
我们有兴趣探索hl
和disp
之间的相关性。
hl
和disp
之间的线性关系让我们开始绘制 hl
作为 disp
的函数
library(ggplot2)
ggplot(df, aes(hl, disp)) +
geom_point()
标准(“完整”)Pearson 乘积矩相关系数由下式给出
with(df, cor(hl, disp))
#[1] -0.2378724
从绘图和 cor
结果可以明显看出,在不控制任何其他变量的情况下,hl
与 disp
之间的线性关系不是非常强壮。
回顾一下定义:给定混杂变量 Z 的 X 和 Y 之间的偏相关定义为 X 对 Z 和 Y 对 Z 的线性回归产生的残差的相关性。
让我们通过绘制两个相应线性模型 hl ~ deg + BC
和 disp ~ deg + BC
的残差来可视化部分相关。
ggplot(data.frame(
res.x = lm(hl ~ deg + BC, df)$residuals,
res.y = lm(disp ~ deg + BC, df)$residuals)) +
geom_point(aes(res.x, res.y))
两个残差的线性相关性非常明显,表明hl
和disp
之间存在显着的偏相关。让我们通过计算 hl
和 disp
之间的部分相关性来确认,同时控制来自 deg
和 BC
pcor.test(df$hl, df$disp, df[, c("deg","BC")])
# estimate p.value statistic n gp Method
#1 -0.6720863 0.06789202 -2.223267 10 2 pearson
当我们控制混杂变量时,hl
和 disp
之间的 Pearson 乘积矩相关系数大于我们不时的相关系数控制混杂因素。
关于r - 偏相关值大于 R 中的正态相关值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51236206/
我不太确定为什么较大字符串(“cat”和“dog”)的答案不一致。我正在用链接列表和模板的使用做一些事情。我的好奇心促使我修改模板和函数重载。如果有人能解释发生了什么,我将不胜感激。谢谢你。 #inc
目前我必须编写这样的查询 SELECT * FROM table WHERE value1 > 5000 OR value2 > 5000 OR value3 > 5000 OR value4 > 5
我想创建一个如下所示的查询,但我不确定如何正确编码, 我希望它在开始时间的 1 小时内返回所有预订,这是我想出的: SELECT BookingId, StartTime FROM Booking W
这个问题已经有答案了: How to check if a number is between two values? (12 个回答) 已关闭 6 年前。 我目前正在 Codecademy 上学习
我想验证用户输入。如果用户输入的数字大于 3,则应抛出错误“Too high”,如果小于 0.15,则应抛出“Too low”错误。如果它在 3 到 0.15 之间,那么它应该显示“好的”。 我的代码
我有一个拖动脚本,我在其中拖动 div.slider,我正在跟踪 div.slider 的“左”值,并在它大于 68 时让它淡出,但问题是它当它达到 6 而不是 68 时淡出。如果我将数字更改为 85
是否有一种常见的模式如何在数据库(postgresql)中存储这样的条件,然后以简单的方式从数据库中获取这些数据,并在前端将其与我们在前端的值 SE 进行比较(以获得正确的“值” "): condit
如何大于/小于内部工作 如果我将 5 与 100 与 5 与 2,147,483,647 (Integer.MAX_VALUE) 进行比较,性能会受到多大影响 5 < 100 and 5 < Inte
当我运行此查询时它有效 SELECT sum( amount ) AS balance FROM balance WHERE amount >= 100 但是当我想过滤用户 ID 时,它返回 NULL
我有下表: account(id, balance, bank_branch) 我想选择账户余额大于其 bank_branch 平均余额的所有账户 我试过了 Select id from accoun
你们有没有人知道如何搜索所有大于指定数字的数字? 例如:所有单据编号>65 我试过这样:documentNumber: [65 TO *] 但我收到异常,因为 lucene 期望解析一个没有 * 的数
我正在使用 Prolog 算法,并且有一个生成抽象语法树的程序,例如 plus(num(1),num(2))这只是 1+2 .这是通过使用 DCG 来完成的。在这个例子中 plus(num(1),nu
是否使用 Sin(720) 或 Cos(1440)(以度为单位的角度)? 无论是在计算机编程中还是在任何其他情况下? 一般来说,是否有任何角度的 Sin/Cosine/Tan 使用 大于360? 在物
我发现了一些与此相关的问题,但没有一个真正回答了我的问题。 我有一个像这样的表格文件: 2 10610 0 0 0 0.0105292 2 10649 0 0 0
我是 Prolog 的新手,我正在尝试解决这个练习: Define a predicate greater_than/2 that takes two numerals in the notation
我想选择具有出现次数的不同键,此查询似乎有效: SELECT ItemMetaData.KEY, ItemMetaData.VALUE, count(*) FROM ItemMetaData GROU
我需要存储和使用大于 ULLONG_MAX 的数值。 我需要对这些值进行算术运算,所以我认为存储为 char** 不是一个选项。 在这些情况下,有没有办法动态创建额外的 long 前缀? 谢谢大家。根
我是 Prolog 的新手,我正在尝试解决这个练习: Define a predicate greater_than/2 that takes two numerals in the notation
处理已知大小但大于 64 位的位掩码(即执行所有位操作)的最有效的数据结构是什么? 字节[]? 大整数?完全是别的东西吗? 需要与 Java 7 兼容,并且对于诸如此类的事情应该很快(或者至少与合理预
编辑:抱歉进行了许多编辑。我自己都忘记写了什么了。 我使用 JPanel,将 BoxLayout 作为 JFrame 的根面板。我向此根面板添加了另外两个面板:带有 FlowLayou 的 Butto
我是一名优秀的程序员,十分优秀!