r - 使用 dplyr::group_by() 使用 NA 查找最小日期-6ren

r - 使用 dplyr::group_by() 使用 NA 查找最小日期

转载作者：行者123 更新时间：2023-12-01 16:21:33

25

4

这个问题在这里已经有了答案:

R `Inf` when it has class `Date` is printing `NA`

(1 个回答)

3年前关闭。

我正在寻找组内的最短日期。很多时候，该组只包含缺少的日期(在这种情况下，我更喜欢分配类似 NA 的内容)。
NA s 似乎被正确分配，但它们没有响应 is.na()正如我所料。 当单元格显示为 NA , is.na()输出意外为 FALSE。

library(magrittr)
ds_visit <- tibble::tribble(
  ~subject_id,                   ~date,
           1L,  as.Date("2017-01-01" ),
           1L,  as.Date("2017-02-01" ), 

           2L,  as.Date(NA_character_),        
           2L,  as.Date("2017-01-02" ),

           3L,  as.Date(NA_character_),        
           3L,  as.Date(NA_character_),   

           4L,  as.Date(NA_character_),        
           4L,  as.Date(NA_character_)       
)

ds_subject <- ds_visit %>% 
  # as.data.frame() %>% 
  dplyr::group_by(subject_id) %>% 
  dplyr::mutate(
    date_na     = is.na(date),          # Works as expected
    date_min    = min(date, na.rm=T),   # Works as expected

    date_min_na = is.na(date_min)       # Does NOT work as expected.
  ) %>% 
  dplyr::ungroup() # %>% as.data.frame()

ds_visit看起来正确。 ds_subject对我来说看起来是正确的，除了最后一列。

ds_subject(最后一列的最后四行是意外的。)

# A tibble: 8 x 5
  subject_id date       date_na date_min   date_min_na
       <int> <date>     <lgl>   <date>     <lgl>      
1          1 2017-01-01 F       2017-01-01 F          
2          1 2017-02-01 F       2017-01-01 F          
3          2 NA         T       2017-01-02 F          
4          2 2017-01-02 F       2017-01-02 F          
5          3 NA         T       NA         F         # Should be 'T'?
6          3 NA         T       NA         F         # Should be 'T'?
7          4 NA         T       NA         F         # Should be 'T'?
8          4 NA         T       NA         F         # Should be 'T'?

我抖动了几个维度但没有成功，包括:(a) 操作系统，(b) R 版本(包括 3.4.3 patched)，
(c) dplyr & rlang版本(包括 CRAN 和 GitHub 版本)，以及 (d) tibble对比 data.frame .作为临时解决方法(此处未显示)，我在找到最小值之前将日期转换为字符，然后转换回日期。

警告消息(从主题 3 和 4 生成):即使警告消息说 Inf被退回， NA打印数据集时出现。 (此行为与 min(as.Date(NA), na.rm=T) 一致)。

1: In min.default(c(NA_real_, NA_real_), na.rm = TRUE) :
  no non-missing arguments to min; returning Inf
2: In min.default(c(NA_real_, NA_real_), na.rm = TRUE) :
  no non-missing arguments to min; returning Inf

进一步检查日期列似乎与上面的数据集 View 一致。类型是日期，最后四个单元格是 NA ，不是无穷大。

> str(ds_subject$date_min)
 Date[1:8], format: "2017-01-01" "2017-01-01" "2017-01-02" "2017-01-02" NA NA NA NA

这是一个错误，还是我滥用了某些东西？这是否相关 NA被生产而不是无限？

编辑 1

@eipi10 和@mtoto 下面的链接帮助我更好地理解。谢谢。我对打印 'NA' 而不是 'Inf' 并不感到兴奋，但我会尽量记住这一点。

为了解决这种特定情况，是否有比 base::min() 更好的功能？ ?

我想要一个可以包含在 dplyr::mutate() 中的函数/ dplyr::summarize() 行为类似于 SQL 的子句。 (当 is.na() 替换 summarize() 时，最初的 dplyr 示例仍然存在 mutate() 问题)。

例如:

"
  SELECT 
    subject_id,
    MIN(date) AS date_min
    --MIN(date) OVER (PARTITION BY subject_id) AS date_min --`OVER` not supported by sqlite
  FROM ds_visit
  GROUP BY subject_id
" %>% 
  sqldf::sqldf() %>% 
  tibble::as_tibble() %>% 
  dplyr::mutate(
    # date_min_na_1 = is.na(date_min), #Before conversion back to date (from numeric); same result as below.
    date_min      = as.Date(date_min, "1970-01-01"),
    date_min_na   = is.na(date_min)
  )

结果哪里缺组有礼貌 NA按预期响应 is.na() 的值:

# A tibble: 4 x 3
  subject_id date_min   date_min_na
       <int> <date>     <lgl>      
1          1 2017-01-01 F          
2          2 2017-01-02 F          
3          3 NA         T          
4          4 NA         T

编辑 2

我看到这个问题被标记为 R Inf when it has class Date is printing NA 的重复.我看到了很多重叠(我从那个问题中学到了很多东西，以及它对我的初始代码有什么影响)，但我相信它们是不同的问题。

本题涉及分组，返回 NA当不存在非缺失值时。我只对 base::min() 不感兴趣.如上所述，理想情况下 base::min()完全避免使用已建立且经过测试的功能/方法，其行为更像 SQL。

(尽管我很感激 @alistaire 在 base:min() 周围的包装器，如果不存在已建立的功能/方法，我会使用它。)

最佳答案

问题是min与 na.rm = TRUE和所有- NA值返回 Inf ( max 等效返回 -Inf )，但 print.Date没有办法显示这些值，所以它打印为 NA ，即使这不是存储值。

min(NA, na.rm = TRUE)
#> Warning in min(NA, na.rm = TRUE): no non-missing arguments to min;
#> returning Inf
#> [1] Inf

x <- min(as.Date(NA), na.rm = TRUE)
#> Warning in min.default(structure(NA_real_, class = "Date"), na.rm = TRUE):
#> no non-missing arguments to min; returning Inf

x
#> [1] NA

is.na(x)
#> [1] FALSE

x == Inf
#> [1] TRUE

如果您愿意，您可以重新定义打印方法，以便根据您的喜好进行打印，例如

print.Date <- function(x, ...){
    if(x == Inf | x == -Inf) {
        print(as.numeric(x))
    } else {
        base::print.Date(x, ...)
    }
}

x
#> [1] Inf

要实际获得您想要的结果，请指定如果所有值都为 NA 应返回的内容:

library(tidyverse)

ds_visit <- data_frame(subject_id = c(1L, 1L, 2L, 2L, 3L, 3L, 4L, 4L), 
                       date = as.Date(c("2017-01-01", "2017-02-01", NA, "2017-01-02", NA, NA, NA, NA)))

ds_visit %>% 
    group_by(subject_id) %>% 
    summarise(date_min = if(all(is.na(date))) NA else min(date, na.rm = TRUE), 
              date_min_na = is.na(date_min))
#> # A tibble: 4 x 3
#>   subject_id date_min   date_min_na
#>        <int> <date>     <lgl>      
#> 1          1 2017-01-01 FALSE      
#> 2          2 2017-01-02 FALSE      
#> 3          3 NA         TRUE       
#> 4          4 NA         TRUE

它并不那么简洁，但其行为完全可以预测。

关于r - 使用 dplyr::group_by() 使用 NA 查找最小日期，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48470746/

25

4

0

文章推荐： java - 如何在 spring mvc 中使用 freemarker 消息？

文章推荐： ios - tabBarItem 图像质量差

文章推荐： jdbc - Glassfish 管理控制台的 java.lang.RuntimeException

文章推荐： ios - uitableviewcell 内的 imageview 折叠单元格

mysql join 选择两个表之间的最小(日期)和最大(日期)
我的数据库中有两张表，一张用于 field ，另一张用于预订。我需要的是一个查询来选择所有未预订的 field 。见下文: 餐 table 预订具有以下字段: bk_id venue_id 作为(预订
php - 表格日期输入从(日期)到(日期)或我不知道一个或两个选择
嗨，我是编码新手，我有一些培训项目，其中包括从 HTML 表单输入 MySQL 数据库。它就像你玩过的游戏的日志。第一个日期输入是您开始游戏的时间，第二个日期输入是您完成游戏的时间。但我需要检查器或类
mysql - 如何从同一张表中获取最小(日期)、最大(日期)及其数量？
我是这个 sql 编码的新手，我正在尝试学习新的东西。因此，我创建了一个交货表，其中包含一些属性，如商品代码、交货日期、交货数量。所以如何从同一张表中获取第一个交货日期(最小日期)和交货数量以及最晚交
PHP 日期 ISO 8601 日期时区
我从支付网关返回了这个日期 2014-05-15T08:40:52+01:00 我得到 2014-05-15T08:40:52 但我无法识别时区 +01:00 的含义我的位置时区是 UTC−06:0
sql - 从一列中选择最小(日期)、最大(日期)和按天分组 - SQL
我快要疯了，请帮忙。我有一列包含日期时间值。我需要找到每天的最小值和最大值。数据看起来像这样 2012-11-23 05:49:26.000 2012-11-23 07:55:43.000
javascript - {{x.日期 |日期 :'hh:mm' }} 不起作用
我从 json 数据中获取日期为 2015 年 4 月 15 日晚上 10:15我只想在 html 页面中显示 json 响应数据的时间，例如 10:15 PM这里我放了我的js函数和html代码 J
c# - 将 .NET 日期/时间格式字符串转换为 Javascript 日期/时间格式字符串
是否有 javascript 库或其他机制允许我将 .NET 日期/时间格式字符串(即 yyyy-MM-dd HH:mm:ss)传递给 javascript函数并让它相应地解析提供的日期时间值？我一直
javascript - 如何将 UTC 日期/时间转换为 EST 日期/时间
我正在使用以下代码以正确的格式获取当前的 UTC 时间，但客户返回并要求时间戳现在使用 EST 而不是 UTC。我搜索了 Google 和 stackoverflow，但找不到适用于我现有代码的答案。
r - 如何找到值低于 0 的 5 行或更多行(日期)系列的第一行(日期)
我有以下日期的平均温度数据。我想找到连续至少 5 天低于或高于 0 摄氏度的开始日期。 date_short mean.temp 1 2018-05-18 17.54 2 2018-05-19
javascript - 日期.值 = 新日期(日期.值);在 IE11 中不起作用
它可以在其他网络浏览器中使用，但 IE11 返回无效日期。为了调试我使用了下面的代码。 console.log('before - ' + date.value); date.value = new
javascript - 将 JSON 日期/日期(1388624400000)/转换为 Excel 中的日期
我在 Excel 中有一个数据的 Web 提取，其中日期列带有/Date(1388624400000)/。我需要在 Excel 中将其转换为日期。最佳答案能够从 here 中推断出它. 假设字符串
node.js - Mongoose 更新条件 PDT 日期/型号 ISO 日期
嗨，我的 Schmema 有一个带有 ISO 日期的字段: ISODate("2015-04-30T14:47:46.501Z") Paypal 在成功付款后以该形式返回日期对象: Time/Date
mysql - 如何在 MySQL 服务器中将最小(日期)和最大(日期)之间的小时分割为 4 小时板
我的 table : CREATE TABLE `tbdata` ( `ID` INT(10) NOT NULL AUTO_INCREMENT, `PatientID` INT(10) NOT
linux - Bash:日期 "%b"和日期 "%h"(当然还有)日期 "%B"给出月份的全名？
我正在 Ubuntu 服务器 12.04 中编写一个 shell 脚本，它应该比较日志文件中的一些数据。在日志文件中，日期以以下格式给出: [Mon Apr 08 15:02:54 2013] 如您所
mysql - 当在年(日期)和月(日期)上使用 MYSQL GROUP BY AND ROLLUP 时，我无法将 Null 更改为 'Total'
我想使用 GROUP BY WITH ROLLUP 创建一个表并获取总行数而不是 null。 $sql ="SELECT IF(YEAR(transaktioner.datum
Django 错误 : could not parse the remainder: ': "Y-m-d "' from ' post. 日期|日期: "Y-m-d"'
我正在创建博客文章，在成功迁移我的博客文件后，当我转到我网站的博客页面时返回一个错误(无法解析其余部分:':“Ymd”'来自'post.date|date: "Ymd"') 我似乎无法确定这是语法错误
JavaScript 日期
我正在尝试获取要插入到 CAML 查询中的月份范围，即:2010-09-01 和 2010-09-30。我使用以下代码生成这两个值: var month = "10/2010"; var month
JavaScript 日期
如何将代码document.write("直到指定日期")更改为writeMessage(date)中的日期？此外，writeMessage(date) 中的日期未正确显示(仅显示年份)。感谢您帮助解
更改目录时间/日期
我在 Windows (XP) 和 Linux 上都尝试过 utime()。在 Windows 上我得到一个 EACCES 错误，在 Linux 上我没有得到任何错误(但时间没有改变)。我的 utim
r - (日期)内的总和
我正在尝试计算发生在同一日期的值的总和(在 XYZmin 中)。我的数据看起来像这样， bar <- structure(list(date = structure(c(15622, 15622,

首页

博学

6Ren·AI

商城

r - 使用 dplyr::group_by() 使用 NA 查找最小日期