readr - 如何从 spec() 更新 col

readr - 如何从 spec() 更新 col_spec 对象

转载作者：行者123 更新时间：2023-12-03 15:47:34

25

4

我喜欢 this RStudio blog post 中描述的有关色谱柱规范的工作流程.基本上，您可以在 read_csv 之后获取列规范。导入，然后保存下来以备后用。例如，从那个帖子:

mtcars2 <- read_csv(readr_example("mtcars.csv"))
#> Parsed with column specification:
#> cols(
#>   mpg = col_double(),
#>   cyl = col_integer(),
#>   disp = col_double(),
#>   hp = col_integer(),
#>   drat = col_double(),
#>   wt = col_double(),
#>   qsec = col_double(),
#>   vs = col_integer(),
#>   am = col_integer(),
#>   gear = col_integer(),
#>   carb = col_integer()
#> )
# Once you've figured out the correct types
mtcars_spec <- write_rds(spec(mtcars2), "mtcars2-spec.rds")

# Every subsequent load
mtcars2 <- read_csv(
  readr_example("mtcars.csv"), 
  col_types = read_rds("mtcars2-spec.rds")
)

不幸的是，规范对象本身是具有属性的列表，但这些与提供给 read_csv 的不同列规范不匹配。功能通过 col_types范围

> mtcars_spec$cols$cyl
<collector_integer>
> str(mtcars_spec$cols$cyl)
 list()
 - attr(*, "class")= chr [1:2] "collector_integer" "collector"
> class(mtcars_spec)
[1] "col_spec"

此外，.rds 文件在 Windows 中编辑时很难看(至少对我而言)。

我希望能够编辑一个大 col_spec对象(例如，跳过某些列，或以其他方式编辑类)。我可以继续猜测我需要编辑列表的字符串，如下所示:

attr(mtcars_spec$cols$cyl,"class")[1] = "collector_skip"` # this worked!
> mtcars_spec
cols(
  mpg = col_double(),
  cyl = col_skip(),
  disp = col_double(),
  hp = col_integer(),
  drat = col_double(),
  wt = col_double(),
  qsec = col_double(),
  vs = col_integer(),
  am = col_integer(),
  gear = col_integer(),
  carb = col_integer()
)

但这似乎很尴尬。是否有更优雅的方法来更新列分类，例如在我的示例中，尝试跳过 mtcars$cyl柱子？或者，如果不是一种优雅的方式，一种涵盖所有可能类型的方式？我不想过多猜测我将如何实现 <collector_date>具有各种日期格式。

最佳答案

这是 Jim Hester's Github post 的最小版本

library(readr)
test_spec <- spec_csv('x,y,theDate,skipCol
  1,a,"21/01/2018", "skip1
  2,z,"31/01/2018", "skip2')

test_spec
#> cols(
#>   x = col_integer(),
#>   y = col_character(),
#>   theDate = col_character(),
#>   skipCol = col_character()
#> )

test_spec$cols[["theDate"]] <- col_date("%d/%m/%Y")
test_spec$cols[["skipCol"]] <- col_skip()

test_spec
#> cols(
#>   x = col_integer(),
#>   y = col_character(),
#>   theDate = col_date(format = "%d/%m/%Y"),
#>   skipCol = col_skip()
#> )

笔记

您需要知道数据的日期格式。

您可以在文件

上使用 readr::spec_csv()

关于readr - 如何从 spec() 更新 col_spec 对象，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39135129/

25

4

0

文章推荐： flask - json在flask上对日期进行序列化restful

文章推荐：德尔福 & 印地 & utf8

文章推荐： sql - 如何在分配参数之后、打开之前记录 SQL.text

文章推荐： flask - Flask 的 url_for 对查询字符串有字符串限制吗？

readr::type_convert 弄乱了时间列
我有以下 R 数据框: zed # A tibble: 10 x 3 jersey_number first_name statistics.minutes
readr::read_csv问题:汉字变成乱码
我正在尝试将数据集导入到 RStudio，但是我遇到了汉字问题，因为它们变成了困惑的代码。这是代码: library(tidyverse) df 1 "\xce\
r - 如何安装库(readr)？
我很惊讶 library(readr) 无法突然加载: library(readr) Error in loadNamespace(j <- imp[[1L]], c(lib.loc, .libPat
使用正则表达式通过 readr 读取列
我需要导入具有不同列号的数据文件。最后，该代码应该由其他对 R 不太熟悉的同事使用。因此它应该是健壮的，并且最好没有警告消息。主要问题是 header 总是以附加的“,”结尾，这不会出现在下面的数据中
使用 `readr::read_csv_chunked()`批量读取csv文件
我想读取较大的csv文件，但遇到内存问题。因此，我想尝试使用read_csv_chunked()包中的readr读取它们。我的问题是我不太了解callback参数。这是到目前为止我尝试过的一个最小的
readr - 加载一个压缩的 csv 文件
从这个代码: require(readr) readK6 <- read_csv("./data/K6.csv.zip", col_types = c("char
从 readr::read_csv 中读取的数据中删除属性
readr::read_csv添加在编辑数据时不会更新的属性。例如， library('tidyverse') df % sapply(n_distinct) no_info % select(-
r - readr()/read_csv中，如何导入所有列为字符的数据
在readr()/read_csv中，如何导入所有列为字符的数据？谢谢! library(tidyverse) read_csv(readr_example("mtcars.csv"))) 最佳
r:readr:write_csv 如何压缩文件？
20MB 以上的 CSV 文件对电子邮件不礼貌。用户如何用最少的代码压缩文件？非压缩任务是: mtcars %>% write_csv('foocars.csv') rea
r - readr()/read_csv中，如何导入所有列为字符的数据
在readr()/read_csv中，如何导入所有列为字符的数据？谢谢! library(tidyverse) read_csv(readr_example("mtcars.csv"))) 最佳
r:readr:write_csv 如何压缩文件？
20MB 以上的 CSV 文件对电子邮件不礼貌。用户如何用最少的代码压缩文件？非压缩任务是: mtcars %>% write_csv('foocars.csv') rea
readr::read_csv() 不读取日期并返回 NA
我有一个 csv 文件 test.csv，其中有一列包含日期: V1 14-01-02 9:10 14-01-02 9:10 14-01-02 9:21 14-01-02 9:34 14-01-02
readr - 在 CSV 中导入日期列
我需要关于如何使用 readr 导入数据的建议通过输入我自己的日期格式我正在尝试的方式是: read_csv("test", col_types = cols( column-name = col_
r - readr 中允许的 "col_*()"形式的列对象是什么？
readr::read_csv 误读了我正在加载的文件中的某些列类型，因此我想使用 cols 手动设置它们。在 ?read_csv 中，它表示 col_types 参数应该是 _"'NULL' 之一
r - 如何强制 readr 考虑正确的小数/分组标记？
具有欧洲数字格式样式 (1234.56 -> 1.234,56) 的 csv 文件应该由 readr 函数或 fread() 处理。尽管 read_csv2() 应该正是为这个任务设计的，但它基本上忽
r - 如何将参数传递给 readr::read_csv_chunked 的回调函数
我一直在玩读者的read_delim_chunked职能。基于 documentation ，目前尚不清楚如何或是否可能将参数传递给回调函数。例如，来自文档示例: # Cars with 3 gear
r - 忽略 readr::read_csv 中的尾随分隔符
当我使用 readr::read_csv 读取包含尾随分隔符的 CSV 文件时，我收到一条警告，提示填写了缺失的列名。以下是重现此警告的简短示例 CSV 文件的内容(将以下代码段存储在名为 examp
r - 使用 readr::parse_double() 解析双分组数
代码显示为: readr::parse_double("123,456,789.987", locale = locale(decimal_mark = "."
rstudio - 在 readr 和 knitr 中显示进度
我目前正在使用 .Rmd 笔记本，RStudio 版本 1.1.442。根据 Knitr 手册和各种小插图中的不同示例，在我的笔记本中，我要求 readr(已安装版本:1.1.1)不显示进度使用隐藏
r - readr read_csv 是否允许在 zip 中指定特定文件
tidyverse 中的 readr 包可以选择自动解压缩 zip 文件并将其转换为 tibble。但是我有一个包含多个 csv 文件的 zip 文件。在下面的代码行中，SSPdataZip 中有三个

首页

博学

6Ren·AI

商城

readr - 如何从 spec() 更新 col_spec 对象