gpt4 book ai didi

r - 同时使用 colClasses 和选择 fread 的参数

转载 作者:行者123 更新时间:2023-12-01 12:40:07 26 4
gpt4 key购买 nike

我正在尝试使用 data.table 包中的 fread 从制表符分隔的文件中加载少量字段,其中包含更多未使用的字段。

为此,我使用了 select 选项,它非常适合在列中阅读。

但是,当我不指定各个字段的类时,自动选择器不起作用(大多数/所有数字变量最终被读取为数字上的小数字,如 1.896916e-316)。

为了解决这个问题,我的第一直觉是更改代码:

DT <- fread("data.txt", select = c ("V1", "V2", ..., "Vn"))

DT <- fread("data.txt", select = c("V1", "V2", ..., "Vn"),
colClasses = c("numeric", ..., "character"))

即,将 select 字符向量与长度相等的 colClasses 字符向量相匹配,(显然)是从选择集中选择的第 i 个字段的类型等于 colClasses 的第 i 个元素。

但是,fread 似乎并不喜欢这样——即使使用 select 时,colClasses 也希望字符向量具有尽可能多的字段作为整个文件:

Error in fread("data.txt", select = c("V1", "V2", ..., "Vn", : colClasses is unnamed and length 25 but there are 256 columns. See ?data.table for colClasses usage.

如果我只需要对一个文件执行此操作,这可能没问题——我只需用 "character"(或任何类型)填充字符向量的其余部分,因为它们反正都被扔了。

但是,我计划对与其他年份对应的文件重复此过程 13 次左右——它们具有相同的列名,但可能以不同的顺序出现(并且每年的列数不同),这会破坏循环能力(以及花费更多时间)。

以下有效,但似乎效率不高(编码方面):

DT <- fread("data.txt", select=c("V1", "V2", "V3"),
colClasses = c(V1 = "factor", V2 = "character", V3 = "numeric"))

这很麻烦,因为我要使用 25 列,所以这是一个巨大的代码块,通过指定列类型来占用。我不能利用 rep 来节省空间,例如

colClasses = c(rep("character", times = 3), rep("numeric", times = 20))

有什么建议可以让这个外观/效果更好吗?

这里是数据预览供引用:

         LEAID FIPST                                                   NAME SCHLEV AGCHRT CCDNF GSLO   V33  TOTALREV  TFEDREV
1: 0100002 01 ALABAMA YOUTH SERVICES N 3 1 03 0 -2 -2
2: 0100005 01 ALBERTVILLE CITY 03 3 1 PK 4143 38394000 6326000
3: 0100006 01 MARSHALL COUNTY 03 3 1 PK 5916 58482000 11617000
4: 0100007 01 HOOVER CITY 03 3 1 PK 13232 154703000 10184000
5: 0100008 01 MADISON CITY 03 3 1 PK 8479 89773000 6648000
---
18293: 5680180 56 NORTHEAST WYOMING BOCES 07 3 1 N -2 -2 -2
18294: 5680250 56 REGION V BOCES 07 3 1 N -2 -2 -2
18295: 5680251 56 WYOMING DEPARTMENT OF FAMILY SERVICES 02 3 1 KG 82 -2 -2
18296: 5680252 56 YOUTH EMERGENCY SERVICES, INC. - ADMINISTRATION OFFICE N 3 1 07 29 -1 -1
18297: 5680253 56 WYOMING BEHAVIORAL INSTITUTE N N 1 01 0 -2 -2

最佳答案

其实在仔细阅读this中找到了解决方案Dowle 先生对 drop/select/colClasses 选项的说明:

DT <- fread("data.txt", select = c("V1", "V2", "V3"),
colClasses = list(character = c("char_names"),
factor = c("factor_names"),
numeric = c("numeric_names")))

我之前没有意识到这一点,因为由于我的 .csv 文件格式不正确,我的 fread 尝试出现了一些其他问题。

不过,我习惯将其称为自然方法不起作用的错误:

DT <- fread("data.txt", select = c("V1", ..., "Vn"),
colClasses = c("type1", ..., "typen"))

关于r - 同时使用 colClasses 和选择 fread 的参数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25691637/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com