r - PIL 逊相关性 "Stratified"按分类变量-6ren

r - PIL 逊相关性 "Stratified"按分类变量

转载作者：行者123 更新时间：2023-12-04 11:01:35

25

4

我对 R 很陌生。

我有兴趣为我的数据计算 Pearson 相关性。我已经成功地想出了如何计算数据集中两个连续变量 x 和 y 的相关性；然而，我希望通过第三个分类变量来“分层”相关性:状态。我希望能够说“x 和 y 的相关系数/p 值是 [State] 中的 [Result]。”

我尝试了位于 dplyr 包中的 group_by 方法，该方法位于 cor.test 中(如下所示)。我需要系数和 p 值，所以我一直在尝试使用 cor.test 方法。我也尝试过使用矩阵方法，但也没有成功。

Data<-read.csv("PATHWAYNAME")
  library(dplyr)
  CCor<-cor.test(Data$x, Data$y,
          method=c("pearson"), group_by(State))
  CCor

我能够单独运行每个状态的每组值以获得系数和 p 值；但是，我确信有一种更有效的方法来完成这项任务。我的数据足够大，单独运行它们将不再乏味。

预先感谢您的帮助!

更新:
将此作为一个被极度截断的样本数据集，但同样代表了我自己的变量，我想知道平均收入是否与列出的每个州的访问次数相关；也就是说，平均收入与阿拉巴马州的访问次数呈正相关还是负相关？

>State  NumVis  AvgIncome
>IN       45        60000
>AL       100       56000
>AK       45        80000
>ME       89        54000
>NC       120       100000
>SC       356       43000
>ND       100       25000
>SD       63        20000
>MN       54        46000
>ID       85        55000

使用下面指示的代码运行此数据时，我的结果是这样的:

 CorrDat<-read.csv("File")
     CorrDat %>%
       group_by(State) %>%
        do(tidy(cor.test(CorrDat$NumVis, CorrDat$Income, method="pearson")))

Results

您能否帮助澄清我使用此代码做错了什么，或者我是否需要使用替代方法来完成此任务？

最佳答案

在 R 中有几种方法可以实现这一点。dplyr或更一般地tidyverse是一组能够达到预期结果的流行工具。这些工具的主要区别在于管道 %>%它提供了一种从左到右而不是从内到外编写代码的方法(或在环境中制作一堆中间对象)。尽管管道可以与基础 R 一起使用，但它的受欢迎程度来自 dplyr .

这里有几个关于 mtcars 数据集的例子。关键功能是do和 map这是非常多才多艺的。我建议运行 ?do和 ?map .

library(tidyverse)

mtcars %>%
  group_by(cyl) %>%
  summarize(cor = cor(mpg, disp))
#output
# A tibble: 3 x 2
    cyl correlation
  <dbl>       <dbl>
1     4  -0.8052361
2     6   0.1030827
3     8  -0.5197670

另一种方法是:

mtcars  %>% 
  group_by(cyl) %>%
  do(cor = cor(.$mpg, .$disp)) %>%
  unnest()

或更多变量:

mtcars  %>% 
  group_by(cyl) %>%
  do(cor = as.data.frame(cor(.[,-2]) )) %>%
  unnest()

cor.test 的示例:

library(broom)

mtcars  %>% 
  group_by(cyl)  %>% 
  do(tidy(cor.test(.$mpg, .$disp))) 
#output
    cyl   estimate  statistic     p.value parameter   conf.low   conf.high                               method alternative
  <dbl>      <dbl>      <dbl>       <dbl>     <int>      <dbl>       <dbl>                               <fctr>      <fctr>
1     4 -0.8052361 -4.0740206 0.002782827         9 -0.9474526 -0.39724826 Pearson's product-moment correlation   two.sided
2     6  0.1030827  0.2317344 0.825929685         5 -0.7046776  0.79446840 Pearson's product-moment correlation   two.sided
3     8 -0.5197670 -2.1075838 0.056774876        12 -0.8232990  0.01492976 Pearson's product-moment correlation   two.sided

还有另一种使用 purrr::map 的方法:

mtcars  %>% 
  split(.$cyl)  %>% 
  map(~cor.test(.x$mpg, .x$disp))

它给出了一个列表，可以使用相同或另一个 map 函数对其进行操作:

mtcars  %>% 
  split(.$cyl)  %>% 
  map(~cor.test(.x$mpg, .x$disp)) %>%
  map_dbl("p.value")
#output:
          4           6           8 
0.002782827 0.825929685 0.056774876

提取系数:

mtcars  %>% 
  split(.$cyl)  %>% 
  map(~cor.test(.x$mpg, .x$disp)) %>%
  map(~data.frame(cor = .x$estimate, p = .x$p.value)) #check also `map_dfr` and `map_dfc`

#output
$`4`
           cor           p
cor -0.8052361 0.002782827

$`6`
          cor         p
cor 0.1030827 0.8259297

$`8`
          cor          p
cor -0.519767 0.05677488

更新:回答更新的问题:

问题在于您如何指定 do称呼。这是对的:

df %>%
  group_by(State) %>%
  do(tidy(cor.test(.$NumVis, .$AvgIncome, method="pearson")))

哪里 .表示前一个管道传递的数据。在发布的示例中，结果为:

Error in cor.test.default(.$NumVis, .$AvgIncome, method = "pearson") : 
not enough finite observations

考虑到每组仅提供 1 个观察结果，这是合理的

你所做的是:

CorrDat<-read.csv("File")
     CorrDat %>%
       group_by(State) %>%
        do(tidy(cor.test(CorrDat$NumVis, CorrDat$Income, method="pearson")))

将整个 CorrDat 集传递给 do函数，因此它执行与组相同的操作次数。
%>%管道假定传递的数据将用作以下函数中的第一个参数，如果不应该，数据可以被引用为 . .您可以执行类似 .$column 的操作或 .[,2]等等。

关于r - PIL 逊相关性 "Stratified"按分类变量，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48066130/

25

4

0

文章推荐： r - 确定 tibble 是否分组

文章推荐： r - 如何根据另一列条件删除重复行？

文章推荐： pygame - 如何在Ubuntu16.04中为python3.5安装pygame？

r - 来自矩阵的 Spearman 相关性
我有一个如下所示的数据框: Samples GENE GEN1 GEN2 GEN3 GEN4 GEN5 Sample1 21.0 160 110 3.90 2.62 16.5 Sa
elasticsearch - 基于大多数匹配的查询的 Elasticsearch 相关性
我有以下映射 posts":{ "properties":{ "prop1": { "type": "nested", "properties": { "item
r - 相同维度的两个矩阵之间的 Spearman 相关性
我有两个维度相等的矩阵(p 和 e)，我想在同名的列之间建立斯 PIL 曼相关。我想在矩阵 (M) 中输出对相关性我使用了 Psych 库中的 corr.test() 函数，这是我所做的: libr
r - 相同维度的两个矩阵之间的 Spearman 相关性
我有两个维度相等的矩阵(p 和 e)，我想在同名的列之间建立斯 PIL 曼相关。我想在矩阵 (M) 中输出对相关性我使用了 Psych 库中的 corr.test() 函数，这是我所做的: libr
stata - 如何导出 Spearman 相关性
我正在尝试使用 estpost 和 community-contributed 命令将 Spearman 相关矩阵导出到 rtf 或 Excel 文件中 esttab。但是，我收到以下错误: inv
mysql - ORDER BY 相关性，同时使用参数化值
我在网上找到了以下查询: SELECT company_title FROM companies WHERE company_title like '%gge%' GROUP BY compa
mysql - 如何构建即时搜索引擎？ (具有排名/相关性)
我是 Sphinx 和 Lucene 的重度用户。Sphinx 只需要一个数据库，对其进行索引。然后您调用 Sphinx 获取 ID。但是，如果我想创建一个非常微型的搜索引擎怎么办？就几行数据，几
相关性/匹配值(value)树算法
是否有我要在下面描述的模式/算法的名称？... 假设您有一棵像这样的相关数据树: IDEs Visual Studio Visual Studio 2008 Visual Studio 2010 Ec
linux - 两列之间的 Pearson 相关性
早上好。这是我的问题:我有几个文件，如下所示: 104 0.1697 12.3513214 15.9136214 112 -0.3146 12.0517303 14.8027303 122 0.271
elasticsearch - ES function_score中_score(相关性)的值范围是多少？
在尝试将function_score与boost_mode: "sum"一起使用时(因为这样可以更轻松地跟踪不同的贡献)，我想归一化查询相关性对整体文档分数的影响，但是为此，我需要知道它可以取什么值。
java - mahout Spearman 相关性 java
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为
python - scipy:spearmanr 返回值的重要性(相关性)
X,Y 的 spearmanr(Spearman 相关性)输出为我提供以下信息: 相关性:0.54542821980327882 P 值:2.3569040685361066e-65 其中 len(X
python - 部分日期的 Pandas DataFrame 相关性
我有一个 Pandas 数据框，它有一个七年时间范围内的日期时间索引和 10 种不同 Assets 的价格数据。我想运行 dataframe.corr 函数来评估 Assets 之间的关系，我的问题是
algorithm - 字符串比较算法，相关性， "alike"2个字符串是多少
我有相同数据(公司)的 2 个信息源，我可以通过唯一 ID(契约(Contract)号)将它们连接在一起。第二个不同来源的存在是由于这两个来源是手动独立更新的。所以我在 2 个表中有一个 ID 和一个
php - PHP 中的 Pearson 相关性
我正在尝试在php中实现两组数据之间人员相关系数的计算。我只是想做可以在这个 url 上找到的移植 python 脚本 http://answers.oreilly.com/topic/1066-ho
PHP 和 Elasticsearch 在返回的对象中包含分数/相关性
所以我使用 PHP Symfony 和 Ongr-Elasticsearch 包来查询我的文档并返回匹配的对象。结果似乎按相关性/分数排序，但实际相关性/分数不包含在对象本身中。这可能吗？我想将分数
python - Pandas 滚动窗口 Spearman 相关性
我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和/或 Pearson 相关性。我试过df['corr'] = df['col1'].rolling(P).corr(df['
r - 找到最佳方法来计算 R 中数百万个组合的最高 Pearson 相关性
我正在处理一个大型数据集。不过，我将从一个小示例开始，以说明我要实现的目标。我有以下向量: season %group_by(season, round, team)%>%dplyr::mutate
c# - .AspNetCore.相关性。未找到国家属性(property)。未知位置
我正在使用 OIDC 的混合身份验证流程。 options.Events.OnRedirectToIdentityProvider = redirectContext =>
elasticsearch - Elasticsearch 错误- undefined variable [相关性]
我正在尝试查询我的产品ElasticSearch索引并创建一个script_score，但我一直收到错误Variable [relevancy] is not defined. 我尝试只用一个数字替换

首页

博学

6Ren·AI

商城

r - PIL 逊相关性 "Stratified"按分类变量