gpt4 book ai didi

r - 如何从包含 "NA"值且少于所需数据量的数据集中删除行?

转载 作者:行者123 更新时间:2023-12-02 00:54:23 25 4
gpt4 key购买 nike

我有这个数据集,其中包括给定年份一家公司的所有销售额(公司代码 = gvkey,年份 = fyeqarq,销售额 = saley)。我想删除所有具有归因于公司的 NA 值的行。换句话说,从数据集中完全删除具有单个 NA 值的公司。我还需要删除所有没有至少 11 年销售额的公司。每年有四个值,因为它衡量每个季度的销售额。

我设法使用 na.omit 删除了 NA 值本身,但我需要使用这两个条件从数据集中删除整个公司数据。

所以从整个数据集 dfUSA 中,编码为 1001 的这家公司应该被删除。

df.clean <- na.omit(dfUSA)

以上只会删除 NA 值。但公司仍将存在。

      gvkey   fyearq   saley
1 1001 1983 4,921
2 1001 1983 NA
3 1001 1983 NA
4 1001 1983 NA
5 1001 1984 6,434
6 1001 1984 NA
7 1001 1984 NA
8 1001 1984 NA
9 1001 1985 7,865
10 1001 1985 NA
11 1001 1985 NA
12 1001 1985 NA

它也只有 3 年的数据,这是应该将其删除的另一个原因。一些公司可能拥有所有销售值(value),但少于 11 年的数据。所以我还需要一种方法来检查它。我怎样才能做到这一点?

这是我的第一篇文章,因此如果需要我可以提供更多信息。

最佳答案

我们可以做一个group_by filter

library(dplyr)
df.clean <- dfUSA %>%
# group by the gvkey column
group_by(gvkey) %>%
# check whether there are any NA elements in saley
# negate (!) to change TRUE to FALSE and viceversa
# filter the logical vector so that it removes the whole group
filter(!any(is.na(saley)) %>%
# ungroup to be safe
ungroup()

如果还打算删除具有 NA 或少于 10 个“fyearq”数据的任何“gvkey”,

dfUSA %>%
group_by(gvkey) %>%
# along with the earlier condition check the number of unique
# fyearq and do the negation
filter(!(any(is.na(saley)) & n_distinct(fyearq) < 10))%>%
# ungroup to be safe
ungroup()

关于r - 如何从包含 "NA"值且少于所需数据量的数据集中删除行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55551448/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com