- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
fread 无法读取具有 200Gb 空闲 RAM 的 300Mb .csv 文件,并出现错误
Error: cannot allocate vector of size 5.6 Mb
lang-r
data <- fread(
file = fn,
sep = ",",
stringsAsFactors = FALSE,
data.table = FALSE,
nrows = 1
)
col_classes <- c(
"character",
rep("numeric", ncol(data) - 1)
)
data <- fread(
file = fn,
sep = ",",
na.strings = c("NA", "na", "NULL", "null", ""),
stringsAsFactors = FALSE,
colClasses = col_classes,
showProgress = TRUE,
data.table = FALSE
)
lang-r
> file.size(fn)
[1] 331201365
lang-r
> sessionInfo()
R version 3.5.2 (2018-12-20)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows Server >= 2012 x64 (build 9200)
Matrix products: default
locale:
[1] LC_COLLATE=English_United States.1252 LC_CTYPE=English_United States.1252
[3] LC_MONETARY=English_United States.1252 LC_NUMERIC=C
[5] LC_TIME=English_United States.1252
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] stringr_1.3.1 purrr_0.2.5 dplyr_0.7.8 data.table_1.12.0 crayon_1.3.4
loaded via a namespace (and not attached):
[1] Rcpp_1.0.0 assertthat_0.2.0 R6_2.3.0 magrittr_1.5 pillar_1.3.1 stringi_1.2.4
[7] rlang_0.3.1 rstudioapi_0.9.0 bindrcpp_0.2.2 tools_3.5.2 glue_1.3.0 yaml_2.2.0
[13] compiler_3.5.2 pkgconfig_2.0.2 tidyselect_0.2.5 bindr_0.1.1 tibble_2.0.1
lang-r
omp_get_max_threads() = 64
omp_get_thread_limit() = 2147483647
DTthreads = 0
RestoreAfterFork = true
Input contains no \n. Taking this to be a filename to open
[01] Check arguments
Using 64 threads (omp_get_max_threads()=64, nth=64)
NAstrings = [<<NA>>, <<na>>, <<NULL>>, <<null>>, <<>>]
None of the NAstrings look like numbers.
show progress = 1
0/1 column will be read as integer
[02] Opening the file
Opening file I:/secret_file_name.csv
File opened, size = 315.9MB (331201365 bytes).
Memory mapped ok
[03] Detect and skip BOM
[04] Arrange mmap to be \0 terminated
\n has been found in the input and different lines can end with different line endings (e.g. mixed \n and \r\n in one file). This is common and ideal.
[05] Skipping initial rows if needed
Positioned on line 1 starting: <<id,column_1>>
[06] Detect separator, quoting rule, and ncolumns
Using supplied sep ','
sep=',' with 100 lines of 301 fields using quote rule 0
Detected 301 columns on line 1. This line is either column names or first data row. Line starts as: <<id,column_1>>
Quote rule picked = 0
fill=false and the most number of columns found is 301
[07] Detect column types, good nrow estimate and whether first row is column names
Number of sampling jump points = 100 because (331201363 bytes from row 1 to eof) / (2 * 163458 jump0size) == 1013
Type codes (jump 000) : A7777777777777777777777557777777557777775577777777755777777755777555777555777777...7777777777 Quote rule 0
Type codes (jump 002) : A7777777777777777777777557777777557777775577777777755777777755777777777557777777...7777777777 Quote rule 0
Type codes (jump 020) : A7777777777777777777777557777777557777775577777777755777777755777777777557777777...7777777777 Quote rule 0
Type codes (jump 027) : A7777777777777777777777777777777557777775577777777755777777777777777777557777777...7777777777 Quote rule 0
Type codes (jump 058) : A7777777777777777777777777777777777777777777777777777777777777777777777557777777...7777777777 Quote rule 0
Type codes (jump 100) : A7777777777777777777777777777777777777777777777777777777777777777777777557777777...7777777777 Quote rule 0
'header' determined to be true due to column 2 containing a string on row 1 and a lower type (float64) in the rest of the 10059 sample rows
=====
Sampled 10059 rows (handled \n inside quoted fields) at 101 jump points
Bytes from first data row on line 2 to the end of last row: 331159811
Line length: mean=903.71 sd=756.62 min=326 max=4068
Estimated number of rows: 331159811 / 903.71 = 366444
Initial alloc = 732888 rows (366444 + 100%) using bytes/max(mean-2*sd,min) clamped between [1.1*estn, 2.0*estn]
=====
[08] Assign column names
[09] Apply user overrides on column types
After 6 type and 0 drop user overrides : A7777777777777777777777777777777777777777777777777777777777777777777777777777777...7777777777
[10] Allocate memory for the datatable
Allocating 301 column slots (301 - 0 dropped) with 732888 rows
Error: cannot allocate vector of size 5.6 Mb
最佳答案
R 处理您在 RAM 上的数据。所以你的全局环境的大小最多可以是分配给 R 的 RAM 的大小。
这里有一些技巧。
1 - 使用 gc() 强制垃圾收集
2 - 删除不必要的数据
3 - 使用较小的数据类型,如整数而不是数字
看看我之前的回答 here .
关于r - data.table fread 无法为具有 200Gb RAM 的 300Mb 文件分配内存,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54528429/
只是想知道这些结构之间有什么区别(text、data、rodata、bss 等)在链接描述文件中: .data : { *(.data) } .data : { *(.data*) }
Data 定义为其核心功能之一 gfoldl : gfoldl :: (Data a) => (forall d b. Data d => c (d -> b) -> d -> c b)
以下之间有什么区别:data-sly-use、data-sly-resource、data-sly-include 和 数据-sly-模板?我正在阅读 Sightly AEM 上的文档,我非常困惑。
我有一个 Spring Boot、Spring Data JPA (hibernate) Web 应用程序,并且想引入文本搜索功能。 我理解以下内容 hibernate search 或 spring
我不知道我的代码有什么问题。我读了其他有同样问题的人的一些问题,但没有找到答案。当我尝试编译时出现以下错误: ||In function 'main':| |35|error: expected ex
我不太确定为什么会收到此错误或其含义。我的数据框称为“数据”。 library(dplyr) data %>% filter(Info==1, Male==1) %>% lm(CFL_
我一直在 GitHub 等更现代的网站上看到这些属性,它们似乎总是与自定义的弹出窗口一致,如 title 属性。 Option 1 Option 2 Option 3 Option 4 我在 HTML
如何用 iCloud Core Data 替换我现有的 Core Data?这是我的持久商店协调员: lazy var persistentStoreCoordinator: NSPersistent
我一直在 GitHub 等更现代的网站上看到这些属性,它们似乎总是与自定义的弹出窗口一致,如 title 属性。 Option 1 Option 2 Option 3 Option 4 我在 HTML
我正在通过 this project 在 Android 上摆弄 node.js ,我需要一种方法将 js 文件部署到私有(private)目录(以隐藏源代码,防止用户篡改),该目录也物理存在于文件系
大家好我有点沮丧,所以我希望得到一些帮助。我的项目在 SwiftUI 中。我想使用图像选择器将图像保存到 Core Data。我实现了让 ImagePicker 工作,但我正在努力转换 Image -
我有以下数据和代码: mydf grp categ condition value 1 A X P 2 2 B X P 5
我一直在努力解决这个问题,但我根本找不到任何解决问题的方法。希望这里有人可以提供帮助。 我正在尝试为具有以下结构的某些数据创建个人选择矩阵: # A tibble: 2,152 x 32 a
我了解 Data.Map.Lazy 和 Data.Map.Strict 是不同的。但是,当您导入 Data.Map 时,您究竟导入了什么:严格的、惰性的还是两者的组合? 最佳答案 懒人。看着docs
我正在开发一个 C 程序,用于从 BerkeleyDB DBTree 数据库中提取数据值与特定模式匹配的记录。我创建数据库,打开它,将键的 DBT 和数据的另一个 DBT 清零,将 DBT 标志设置为
所以我有以下成员(member)历史表 User_ID | Start date | End Date | Type(0-7) | ---------------------------
随着最近推出的包dataframe ,我认为是时候正确地对各种数据结构进行基准测试,并突出每种数据结构的优势。我不是每个人的不同优势的专家,所以我的问题是,我们应该如何对它们进行基准测试。 我尝试过的
我有来自 API 的数据,但无法将数组中的数据设置为 vue.js 中的 this.data这是来自 API 的数据(JSON) 你能告诉我这个语法吗 {"id":1613, "name_org":"
在 Vue.js到目前为止,我已经找到了两种定义数据的方法:data: {} 和 data() { return; }. data: { defaultLayout: 'default' }
我正在研究Spring Data Rest Services,并在自定义拦截器中遇到一些问题。之前我使用spring-data-rest-webmvc 2.2.0并以以下方式添加了拦截器。 publi
我是一名优秀的程序员,十分优秀!