gpt4 book ai didi

r - data.table::fread 的 stringsAsFactors=TRUE 参数不会将字符列转换为因子类型 - 解决方法是什么?

转载 作者:行者123 更新时间:2023-12-02 04:36:06 25 4
gpt4 key购买 nike

我知道这个问题已在多个地方提出,我几个小时以来一直在尝试寻找可能的好的解决方案,但失败了。这就是我问这个的原因。

所以,我有一个巨大的数据文件(~5GB),我使用 fread() 来读取它

library(data.table)
df<- fread('output.txt', sep = "|", stringsAsFactors = TRUE)
head(df, 5)
age income homeowner_status_desc marital_status_cd gender
1: $35,000 - $49,999
2: 35 - 44 $35,000 - $49,999 Rent Single F
3: $35,000 - $49,999
4:
5: $50,000 - $74,999
str(df)
Classes ‘data.table’ and 'data.frame': 999 obs. of 5 variables:
$ age : chr "" "35 - 44" "" "" ...
$ income : chr "$35,000 - $49,999" "$35,000 - $49,999" "$35,000 - $49,999" "" ...
$ homeowner_status_desc: chr "" "Rent" "" "" ...
$ marital_status_cd : chr "" "Single" "" "" ...
$ gender : chr "" "F" "" "" ...
- attr(*, ".internal.selfref")=<externalptr>

缺少数据(空白处)。在原始数据中,有很多列,因此我需要找到一种方法,只要列包含字符串,就可以使列因式分解。谁能建议完成此任务的最佳实践是什么?我正在考虑将其更改为数据框并执行此操作。但是当它是一个 data.table 时可以做到这一点吗?

最佳答案

刚刚在 v 1.9.6+ 中为 fread 实现了 stringsAsFactors 参数

来自NEWS :

  1. Implemented stringsAsFactors argument for fread(). When TRUE, character columns are converted to factors. Default is FALSE. Thanks to Artem Klevtsov for filing #501, and to @hmi2015 for this SO post.

关于r - data.table::fread 的 stringsAsFactors=TRUE 参数不会将字符列转换为因子类型 - 解决方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31350209/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com