r - 在 R 上计算基于五分位数的分数-6ren

r - 在 R 上计算基于五分位数的分数

转载作者：行者123 更新时间：2023-12-02 01:21:48

26

4

我有一个包含年份(2006 年到 2010 年)、4 个行业、150 个公司名称和这些公司的净收入的数据框。我总共有 750 个观察结果，每个公司每年一个。我想根据五分位数给公司在每个行业年度内的收入打分。因此，每个行业年内收入排名前 20% 的公司得分为 5，接下来的 20% 得分为 4，依此类推。后 20% 的得分为 1。

示例数据库是:

Year Industry Firm Income
2006 Chemicals ABC 334.50
2007 Chemicals ABC 388.98
.
.
2006 Pharma XYZ 91.45
.
.

我如何在 R 中执行此操作？我已经尝试了 aggregate 和 tapply 以及 quantile 但我无法得出应该用于此的逻辑。请帮忙。

我尝试这样做只是为了将 1 分分配给最低的 20%，但它返回了一个错误。

db10$score <- ifelse(db10$income < aggregate(income~Year+industry,db10,quantile,c(0.2)),1,0)

最佳答案

试试这个方法:

首先，我将创建用于测试以下功能的示例:

y = c(rep(2001,15),rep(2002,15),rep(2003,15))
ind = c("A","B","C","D","E","G","H","I","J","K","L","M","N","O","P")
val = runif(45,10,100)
df = data.frame(y,ind,val)

head(df,20)

      y ind      val
1  2001   A 63.32011
2  2001   B 85.67976
3  2001   C 86.77527
4  2001   D 32.18319
5  2001   E 49.86626
6  2001   G 57.73214
7  2001   H 18.08216
8  2001   I 22.31012
9  2001   J 44.11174
10 2001   K 54.76902
11 2001   L 41.82495
12 2001   M 64.84514
13 2001   N 59.16529
14 2001   O 61.28870
15 2001   P 84.76561
16 2002   A 83.68185
17 2002   B 45.01354
18 2002   C 62.22964
19 2002   D 98.41717
20 2002   E 19.91548

有 3 年，行业从 A 到 P。数据框按年份排序，后面按行业排序。

下面的函数采用年份值 y 并计算所有 df$val 的五分位数类别，其中年份 df$y 是 y

quintile = function(y) {
    x = df$val[df$y == y]
    qn = quantile(x, probs = (0:5)/5)
    result = as.numeric(cut(x, qn, include.lowest = T))
}

唯一剩下的就是将此函数应用于唯一年份值

df$qn = unlist(lapply(unique(df$y), quintile))

结果:

> head(df,20)
      y ind      val qn
1  2001   A 63.32011  4
2  2001   B 85.67976  5
3  2001   C 86.77527  5
4  2001   D 32.18319  1
5  2001   E 49.86626  2
6  2001   G 57.73214  3
7  2001   H 18.08216  1
8  2001   I 22.31012  1
9  2001   J 44.11174  2
10 2001   K 54.76902  3
11 2001   L 41.82495  2
12 2001   M 64.84514  4
13 2001   N 59.16529  3
14 2001   O 61.28870  4
15 2001   P 84.76561  5
16 2002   A 83.68185  4
17 2002   B 45.01354  1
18 2002   C 62.22964  3
19 2002   D 98.41717  5
20 2002   E 19.91548  1

也许有更简单的方法来实现这个......

按两列分组

如果你想根据两列的分组计算五分位数:y 和 grp

y = c(rep(2001,15),rep(2002,15),rep(2003,15))
grp = c("G1","G1","G1","G1","G1","G2","G2","G2","G2","G2","G3","G3","G3","G3","G3")
ind = c("A","B","C","D","E","G","H","I","J","K","L","M","N","O","P")
val = round(runif(45,10,100))
df = data.frame(y,grp,ind,val)

> head(df,20)
      y grp ind val
1  2001  G1   A  40
2  2001  G1   B  33
3  2001  G1   C  65
4  2001  G1   D  99
5  2001  G1   E  18
6  2001  G2   G  36
7  2001  G2   H  15
8  2001  G2   I  17
9  2001  G2   J  42
10 2001  G2   K  67
11 2001  G3   L  60
12 2001  G3   M  34
13 2001  G3   N  61
14 2001  G3   O  76
15 2001  G3   P  15
16 2002  G1   A  18
17 2002  G1   B  15
18 2002  G1   C  44
19 2002  G1   D  79
20 2002  G1   E  22

然后使用:

quintile = function(z) {
    x = df$val[df$y == z[1] & df$grp == z[2]]
    qn = quantile(x, probs = (0:5)/5)
    result = as.numeric(cut(x, qn, include.lowest = T))
}


df$qn = as.vector(apply(unique(df[,c("y","grp")]),1, quintile))

结果:

> head(df,20)
      y grp ind val qn
1  2001  G1   A  40  3
2  2001  G1   B  33  2
3  2001  G1   C  65  4
4  2001  G1   D  99  5
5  2001  G1   E  18  1
6  2001  G2   G  36  3
7  2001  G2   H  15  1
8  2001  G2   I  17  2
9  2001  G2   J  42  4
10 2001  G2   K  67  5
11 2001  G3   L  60  3
12 2001  G3   M  34  2
13 2001  G3   N  61  4
14 2001  G3   O  76  5
15 2001  G3   P  15  1
16 2002  G1   A  18  2
17 2002  G1   B  15  1
18 2002  G1   C  44  4
19 2002  G1   D  79  5
20 2002  G1   E  22  3

在这个例子中，y 是年份，grp 是行业组，ind 是公司，val 收入。

注意 apply 中 c("y","grp") 的顺序和 quintile 函数中的列名。您必须将它们替换为您想要的列名。

请注意，如果您的组很小(在此示例中，每组 5 家公司)，五分位数可能不唯一，并且会弹出错误消息。

使用问题中的列名

quintile = function(z) {
    x = df$Income[df$Year == z[1] & df$Industry == z[2]]
    qn = quantile(x, probs = (0:5)/5)
    result = as.numeric(cut(x, qn, include.lowest = T))
}


df$qn = as.vector(apply(unique(df[,c("Year","Industry")]),1, quintile))

在应用它之前，数据框 df 必须按年份和行业排序。

关于r - 在 R 上计算基于五分位数的分数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39693957/

26

4

0

文章推荐： r - 基于 ifelse 在旧数据表上创建新数据表

文章推荐： java - 如何为基于字符串条件从数组中过滤元素的方法编写测试

文章推荐：关于 Mozilla GeckoView 的 Android 问题

文章推荐： django - 如何将语言代码转换为区域设置名称？

python - 运行Python代码时如何从Pylint获取报告+分数？
直接从 Python 代码运行 pylint 时，我似乎无法获得任何返回值。从命令行运行它会生成一个漂亮的报告，在底部有一个总结分数。我已经尝试将“Run”的返回值放入一个变量中，并获取它的“rep
python - 如何根据数据框中的单词检测分配点数/分数？
我是 Python 新手，正在尝试学习单词检测。我有一个带有单词的数据框 sharina['transcript'] Out[25]: 0 thank you for calling my
javascript - 分数 - 显示分数
http://jsfiddle.net/q8P7Y/ 我在最后显示最终分数时遇到问题，有很多方法可以做到这一点，但我不确定什么是最好的。正如你所看到的，下一个按钮只是 div 的显示/隐藏，而不是页
javascript - 滑动滑动自定义计数器(分数)
我使用滑动 slider 并有计数器分数。它计数很好，但我需要计数 =(所有幻灯片 - 1)。例如，如果我有 20 张幻灯片，我想显示总数 19。有什么办法可以做到这一点吗？我使用他们网站上的常规 j
javascript - 滑动滑动自定义计数器(分数)
我使用滑动 slider 并有计数器分数。它计数很好，但我需要计数 =(所有幻灯片 - 1)。例如，如果我有 20 张幻灯片，我想显示总数 19。有什么办法可以做到这一点吗？我使用他们网站上的常规 j
java - 分数++不起作用
我试图在按下按钮时添加分数，分数显示在 JTextField 中，但是当按下按钮时，分数会添加，它显示为 0。我有一个存储分数的整数字段 private int score=0; yesButton
java - 计算测验游戏的分数/分数
我可以在选项(单选按钮)随机播放之前计算分数/分数，如下面的代码所示。在Collection.shuffle()之前，选项是固定的，因为 CorrectChoice将始终分配给c2单选按钮。那么我可以
java - 胶粘剂作业1，分数
我在这里的代码只能得到87％的代码，因为“带有非正参数的加法参数什么也没做。我该如何解决呢？我尝试了更多的方法，但是我什至无法解决此错误在同学的帮助下说明是：对于此分配，您将创建一个存储分数的类。
再次 Java 分数
昨天，我尝试以一种方式执行此操作...今天我尝试另一种方式，但仍然卡住了。我必须找到一种使用整数除法和取模来做到这一点的方法。这是我的代码，后面是错误消息。 public int evaluateFr
php - 特殊字符显示为 ?分数
我这里有一些特殊字符: http://209.141.56.244/test/char.php 但是当我在这里通过 ajax 抓取这个文件时，它们显示为 back ?标记: http://209.14
algorithm - 获取图中的最大节点(分数)
我得到了一张图表 G与 n顶点，标记自 1至 n (2 a_1 -> a_2 -> ... a_k -> n A然后将占据 1 的所有“子节点”节点, a_1 , ... a_x (其中 x = ce
mongodb - 获取最近的名字，分数
我有一个看起来像这样的 mongodb 集合: db.scores.insert({"name": "Bob", value: 96.3, timeStamp:'2010-9-27 9:32:00'}
solr/lucene idf 分数
我试图更好地了解 lucene 如何对我的搜索进行评分，以便我可以对我的搜索配置或文档内容进行必要的调整。以下是分数明细的一部分。产品: 0.34472802 = queryWeight,
math - 我应该如何订购这些 "helpful"分数？
在我网站上用户生成的帖子下，我有一个类似亚马逊的评级系统: Was this review helpful to you: Yes | No 如果有投票，我会在该行上方显示结果，如下所示:
elasticsearch - 如何标准化 ElasticSearch 分数？
对于我的项目，我需要找出哪些搜索结果被视为“良好”匹配。目前，分数因查询而异，因此需要以某种方式对它们进行标准化。标准化分数将允许选择高于给定阈值的结果。我为 Lucene 找到了几个解决方案: h
r - 创建 z 分数
我有一个由 57 个变量组成的数据文件。由于测量水平不均匀，我想将其中的大约 12 个转换为 z 分数。我查找了互联网资源和帮助文件。一个互联网资源建议我需要 Rbasic 包(不存在)。我使用了 s
solr - 获得稳定的 SOLR 分数
我对 SOLR 核心运行查询并使用过滤器限制结果例如 fq: {!frange l=0.7 }query($q)。我知道 SOLR 分数不有绝对意义，但是0.7(只是一个例子)是计算出来的基于用户输入
SQL 查询从列表中获取最高 "n"分数
我想找到不同的方法来解决我遇到的现实生活问题:想象一下进行一场比赛或一场游戏，在此期间用户收集积分。您必须构建一个查询来显示具有最佳“n”分数的用户列表。我举一个例子来澄清。假设这是用户表，其中包含
lucene - 获取检索到的文档的一部分的 Lucene 分数
我有很多 wiki 页面，我想训练一个分类器，看看是否可以通过一些特征(包括段落的位置和段落的 lucene 分数)来确定重点搜索的位置。我尝试将每个段落视为一个文档，这使我能够获得每个段落的 luc
r - 为行子集创建 z 分数
我是 R 编程新手，在使用一些基本代码时遇到问题。我有一个包含以下列的数据框:条件(因子)、用户(因子)和灵敏度(int)。对于每个用户有 20 个敏感项。我需要为每个用户创建一个具有标准化敏感度分

首页

博学

6Ren·AI

商城

r - 在 R 上计算基于五分位数的分数