r - 是否有从多个数据集中获取多个列中的计数的函数？-6ren

r - 是否有从多个数据集中获取多个列中的计数的函数？

转载作者：行者123 更新时间：2023-12-05 00:45:26

28

4

我有 2 列邮政编码。一个代表我的订单，另一个代表这些订单的报告问题，两者都在单独的数据集中。

我的订单数据集中有一个邮政编码列:

B0E1H0
B3M0G4
B3K6R6
B3L1J7
B0E1H0
B3K3M2
B3K2Z8
B0E1H0
B3K6R6
B0E1H0

我报告的问题数据集中有一个邮政编码列:

B3K6R6
B3K6R6
B0E1H0
B0E1H0
B3L1J7

我想最终得到一个数据框，它为我提供了一个唯一邮政编码列表、数量、问题数量以及每个邮政编码的问题比例，所以是这样的:

Postal code, Volume, Issues, Issue %
BOE1H0, 4, 2, 50%
B3K2Z8, 1, 0, 0%
B3K3M2, 1, 0, 0%
B3K6R6, 2, 2, 100%
B3L1J7, 1, 1, 100%
B3M0G4, 1, 0, 0%

通过执行以下操作，我能够获得第一 2 行:

    orders <- read.csv("G:\\My Drive\\R\\R Data\\Stuff\\Text File\\Orders.csv", header = TRUE)
pcvec <- as.vector(orders["Postal.Code"])
unipc <- unique(pcvec,incomparables = F)
unipcvec <- as.vector(unipc)
pccount <- count(orders, "Postal.Code")
nrow(unipc)
x <- data.frame(pccount)
x <- rename(x, c("freq" = "Volume"))
x

    Postal.Code Volume
1        B0C1H0      1
2        B0E1B0      3
3        B0E1H0      7
4        B0E1L0      1
5        B0E1N0      1
6        B0E1P0      1
7        B0E1V0      1
8        B0E1W0      1
9        B0E2K0      1

我的卷数据集中有大约 5000 行，我的问题数据集中有大约 300 行，可以轻松做到这一点吗？

抱歉，如果我没有正确的术语，请告诉我是否可以澄清这一点。

最佳答案

这是 data.table 的一个选项.将'data.frame'转换为'data.table'(setDT(df1)，setDT(df2))，通过'V1'获取行数(.N)，做一个连接on 'V1'，然后通过将非常见列除以得到百分比，同时分配 NA为 0

library(data.table)
setnames(setDT(df1)[, .N, V1][setDT(df2)[, .N, V1], 
    Issues := i.N, on = .(V1)][, Issue_perc:= Issues/N * 100][is.na(Issues), 
     c('Issues', 'Issue_perc') := 0], 'N', 'Volume')[]
#       V1 Volume Issues Issue_perc
#1: B0E1H0      4      2         50
#2: B3M0G4      1      0          0
#3: B3K6R6      2      2        100
#4: B3L1J7      1      1        100
#5: B3K3M2      1      0          0
#6: B3K2Z8      1      0          0

或 dcast 的其他选项

dcast(rbindlist(list(df1, df2), idcol = 'grp')[, .N, .(grp, V1)],
   V1 ~ c("Volume", "Issues")[grp], value.var = "N", fill = 0)[, 
      Issue_perc := Issues/Volume * 100][]
#         V1 Issues Volume Issue_perc
#1: B0E1H0      2      4         50
#2: B3K2Z8      0      1          0
#3: B3K3M2      0      1          0
#4: B3K6R6      2      2        100
#5: B3L1J7      1      1        100
#6: B3M0G4      0      1          0

或使用 base R ，我们创建一个 union来自两个数据集的 'V1' 列中的元素，然后转换为 factor与 levels指定为'lvls'，得到 table ，做一个 merge和 transform创建“Issue_perc”列

lvls <- union(df1$V1, df2$V1)
transform(merge(as.data.frame(table(factor(df1$V1, levels = lvls))), 
   as.data.frame(table(factor(df2$V1, levels = lvls))), by = 'Var1'), 
    Issue_perc = Freq.y/Freq.x * 100)
#     Var1 Freq.x Freq.y Issue_perc
#1 B0E1H0      4      2         50
#2 B3K2Z8      1      0          0
#3 B3K3M2      1      0          0
#4 B3K6R6      2      2        100
#5 B3L1J7      1      1        100
#6 B3M0G4      1      0          0

或带有 tidyverse 的选项，我们将数据集放入 list , map通过 list , 将 'V1' 转换为 factor与 levels如前所述， reduce list通过执行 inner_join 到单个 data.frame ，然后使用 mutate 创建百分比列

library(tidyverse)
list(df1, df2) %>% 
    map(~ .x %>% 
             mutate(V1 = factor(V1, levels = lvls)) %>% 
             count(V1,  .drop = FALSE)) %>%
             reduce(inner_join, by = 'V1') %>% 
             mutate(Issue_perc = n.y/n.x * 100) %>% 
             rename_at(vars(matches('n\\.')), ~ c("Volume", "Issues"))
# A tibble: 6 x 4
#  V1     Volume Issues Issue_perc
#  <fct>   <int>  <int>      <dbl>
#1 B0E1H0      4      2         50
#2 B3M0G4      1      0          0
#3 B3K6R6      2      2        100
#4 B3L1J7      1      1        100
#5 B3K3M2      1      0          0
#6 B3K2Z8      1      0          0

或者稍微不同的选择是将数据集放在 list 中。，然后将它们与分组列绑定(bind)， count获取频率， spread为“宽”格式，然后创建新的“perc”列

list(df1, df2) %>%
    bind_rows(.id = 'grp') %>%
    count(grp, V1) %>% 
    mutate(grp = c("Volume", "Issues")[as.integer(grp)]) %>% 
    spread(grp, n, fill = 0) %>% 
    mutate(Issue_perc = Issues/Volume * 100)
# A tibble: 6 x 4
#  V1     Issues Volume Issue_perc
#  <chr>   <dbl>  <dbl>      <dbl>
#1 B0E1H0      2      4         50
#2 B3K2Z8      0      1          0
#3 B3K3M2      0      1          0
#4 B3K6R6      2      2        100
#5 B3L1J7      1      1        100
#6 B3M0G4      0      1          0

数据

df1 <- structure(list(V1 = c("B0E1H0", "B3M0G4", "B3K6R6", "B3L1J7", 
"B0E1H0", "B3K3M2", "B3K2Z8", "B0E1H0", "B3K6R6", "B0E1H0")), row.names 
= c(NA, -10L), class = "data.frame")

df2 <- structure(list(V1 = c("B3K6R6", "B3K6R6", "B0E1H0", "B0E1H0", 
"B3L1J7")), row.names = c(NA, -5L), class = "data.frame")

关于r - 是否有从多个数据集中获取多个列中的计数的函数？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57237372/

28

4

0

文章推荐： laravel - 以一种形式从laravel nova中的关系添加字段文本

文章推荐： perl - 比较两个文件，其中一条信息可以灵活

文章推荐： list - 有没有办法用java 8流更改日期格式？

详解C语言sscanf()函数、vsscanf()函数、vscanf()函数
C语言sscanf()函数：从字符串中读取指定格式的数据头文件： ?
php - 如何解释at()函数； substr()函数;伪代码中的exist()函数
最近，我有一个关于工作预评估的问题，即使查询了每个功能的工作原理，我也不知道如何解决。这是一个伪代码。下面是一个名为foo()的函数，该函数将被传递一个值并返回一个值。如果将以下值传递给foo函数，
VBS教程：函数-CStr 函数
CStr 函数返回表达式，该表达式已被转换为 String 子类型的 Variant。 CStr(expression) expression 参数是任意有效的表达式。说明通常，可以
VBS教程：函数-CSng 函数
CSng 函数返回表达式，该表达式已被转换为 Single 子类型的 Variant。 CSng(expression) expression 参数是任意有效的表达式。说明通常，可
VBS教程：函数-CreateObject 函数
CreateObject 函数创建并返回对 Automation 对象的引用。 CreateObject(servername.typename [, location]) 参数 serv
VBS教程：函数-Cos 函数
Cos 函数返回某个角的余弦值。 Cos(number) number 参数可以是任何将某个角表示为弧度的有效数值表达式。说明 Cos 函数取某个角并返回直角三角形两边的比值。此比值是
VBS教程：函数-CLng 函数
CLng 函数返回表达式，此表达式已被转换为 Long 子类型的 Variant。 CLng(expression) expression 参数是任意有效的表达式。说明通常，您可以使
VBS教程：函数-CInt 函数
CInt 函数返回表达式，此表达式已被转换为 Integer 子类型的 Variant。 CInt(expression) expression 参数是任意有效的表达式。说明通常，可
VBS教程：函数-Chr 函数
Chr 函数返回与指定的 ANSI 字符代码相对应的字符。 Chr(charcode) charcode 参数是可以标识字符的数字。说明从 0 到 31 的数字表示标准的不可打印的
VBS教程：函数-CDbl 函数
CDbl 函数返回表达式，此表达式已被转换为 Double 子类型的 Variant。 CDbl(expression) expression 参数是任意有效的表达式。说明通常，您可
VBS教程：函数-CDate 函数
CDate 函数返回表达式，此表达式已被转换为 Date 子类型的 Variant。 CDate(date) date 参数是任意有效的日期表达式。说明 IsDate 函数用于判断 d
VBS教程：函数-CCur 函数
CCur 函数返回表达式，此表达式已被转换为 Currency 子类型的 Variant。 CCur(expression) expression 参数是任意有效的表达式。说明通常，
VBS教程：函数-CByte 函数
CByte 函数返回表达式，此表达式已被转换为 Byte 子类型的 Variant。 CByte(expression) expression 参数是任意有效的表达式。说明通常，可以
VBS教程：函数-CBool 函数
CBool 函数返回表达式，此表达式已转换为 Boolean 子类型的 Variant。 CBool(expression) expression 是任意有效的表达式。说明如果 ex
VBS教程：函数-Atn 函数
Atn 函数返回数值的反正切值。 Atn(number) number 参数可以是任意有效的数值表达式。说明 Atn 函数计算直角三角形两个边的比值 (number) 并返回对应角的弧
VBS教程：函数-Asc 函数
Asc 函数返回与字符串的第一个字母对应的 ANSI 字符代码。 Asc(string) string 参数是任意有效的字符串表达式。如果 string 参数未包含字符，则将发生运行时错误。
VBS教程：函数-Array 函数
Array 函数返回包含数组的 Variant。 Array(arglist) arglist 参数是赋给包含在 Variant 中的数组元素的值的列表（用逗号分隔）。如果没有指定此参数，则
VBS教程：函数-Abs 函数
Abs 函数返回数字的绝对值。 Abs(number) number 参数可以是任意有效的数值表达式。如果 number 包含 Null，则返回 Null；如果是未初始化变量，则返回 0。
VBS教程：函数-FormatPercent 函数
FormatPercent 函数返回表达式，此表达式已被格式化为尾随有 % 符号的百分比（乘以 100 ）。 FormatPercent(expression[,NumDigitsAfterD
VBS教程：函数-FormatNumber 函数
FormatNumber 函数返回表达式，此表达式已被格式化为数值。 FormatNumber( expression [,NumDigitsAfterDecimal [,Inc

首页

博学

6Ren·AI

商城

r - 是否有从多个数据集中获取多个列中的计数的函数？