gpt4 book ai didi

node.js - 如何在 nodejs 中加载非常大的 csv 文件?

转载 作者:搜寻专家 更新时间:2023-10-31 22:36:58 25 4
gpt4 key购买 nike

我正在尝试将 2 个大的 csv 加载到 nodejs 中,第一个的大小为 257 597 ko,第二个为 104 330 ko。我正在使用文件系统 (fs) 和 csv 模块,这是我的代码:

fs.readFile('path/to/my/file.csv', (err, data) => {
if (err) console.err(err)
else {
csv.parse(data, (err, dataParsed) => {
if (err) console.err(err)
else {
myData = dataParsed
console.log('csv loaded')
}
})
}
})

并且在年龄(1-2 小时)之后它只是崩溃并显示此错误消息:

<--- Last few GCs --->

[1472:0000000000466170] 4366473 ms: Mark-sweep 3935.2 (4007.3) -> 3935.2 (4007.
3) MB, 5584.4 / 0.0 ms last resort GC in old space requested
[1472:0000000000466170] 4371668 ms: Mark-sweep 3935.2 (4007.3) -> 3935.2 (4007.
3) MB, 5194.3 / 0.0 ms last resort GC in old space requested


<--- JS stacktrace --->

==== JS stack trace =========================================

Security context: 000002BDF12254D9 <JSObject>
1: stringSlice(aka stringSlice) [buffer.js:590] [bytecode=000000810336DC91 o
ffset=94](this=000003512FC822D1 <undefined>,buf=0000007C81D768B9 <Uint8Array map
= 00000352A16C4D01>,encoding=000002BDF1235F21 <String[4]: utf8>,start=0,end=263
778854)
2: toString [buffer.js:664] [bytecode=000000810336D8D9 offset=148](this=0000
007C81D768B9 <Uint8Array map = 00000352A16C4D01>,encoding=000002BDF1...

FATAL ERROR: CALL_AND_RETRY_LAST Allocation failed - JavaScript heap out of memo
ry
1: node::DecodeWrite
2: node_module_register
3: v8::internal::FatalProcessOutOfMemory
4: v8::internal::FatalProcessOutOfMemory
5: v8::internal::Factory::NewRawTwoByteString
6: v8::internal::Factory::NewStringFromUtf8
7: v8::String::NewFromUtf8
8: std::vector<v8::CpuProfileDeoptFrame,std::allocator<v8::CpuProfileDeoptFrame
> >::vector<v8::CpuProfileDeoptFrame,std::allocator<v8::CpuProfileDeoptFrame> >
9: v8::internal::wasm::SignatureMap::Find
10: v8::internal::Builtins::CallableFor
11: v8::internal::Builtins::CallableFor
12: v8::internal::Builtins::CallableFor
13: 00000081634043C1

最大的文件已加载,但 Node 内存不足。分配更多内存可能很容易,但这里的主要问题是加载时间,尽管文件很大,但加载时间似乎很长。那么正确的做法是什么呢?顺便说一句,Python 使用 pandas 加载这些 csv 非常快(3-5 秒)。

最佳答案

Stream 运行完美,只用了 3-5 秒:

var csv = require('csv-parser')
var data = []

fs.createReadStream('path/to/my/data.csv')
.pipe(csv())
.on('data', function (row) {
data.push(row)
})
.on('end', function () {
console.log('Data loaded')
})

关于node.js - 如何在 nodejs 中加载非常大的 csv 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50469355/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com