gpt4 book ai didi

node.js - 处理 CSV 文件困难、浏览器超时

转载 作者:太空宇宙 更新时间:2023-11-04 01:41:17 25 4
gpt4 key购买 nike

我被要求每天从服务器导入一个 csv 文件,并将相应的 header 解析到 mongoose 中的相应字段。

我的第一个想法是让它通过调度程序自动运行 cron模块。

const CronJob = require('cron').CronJob;
const fs = require("fs");
const csv = require("fast-csv")

new CronJob('30 2 * * *', async function() {
await parseCSV();
this.stop();
}, function() {
this.start()
}, true);

接下来,parseCSV()函数代码如下:(我简化了一些数据)

function parseCSV() {
let buffer = [];

let stream = fs.createReadStream("data.csv");
csv.fromStream(stream, {headers:
[
"lot", "order", "cwotdt"
]
, trim:true})
.on("data", async (data) =>{
let data = { "order": data.order, "lot": data.lot, "date": data.cwotdt};

// Only add product that fulfill the following condition
if (data.cwotdt !== "000000"){
let product = {"order": data.order, "lot": data.lot}
// Check whether product exist in database or not
await db.Product.find(product, function(err, foundProduct){
if(foundProduct && foundProduct.length !== 0){
console.log("Product exists")
} else{
buffer.push(product);
console.log("Product not exists")
}
})
}
})
.on("end", function(){
db.Product.find({}, function(err, productAvailable){
// Check whether database exists or not
if(productAvailable.length !== 0){
// console.log("Database Exists");
// Add subsequent onward
db.Product.insertMany(buffer)
buffer = [];
} else{
// Add first time
db.Product.insertMany(buffer)
buffer = [];
}
})
});
}

如果csv文件中只有几行行,但仅仅达到2k行,这不是问题,我遇到了问题。罪魁祸首是由于if监听事件处理程序时进行条件检查 on ,它需要检查每一行以查看数据库是否已包含该数据。

我这样做的原因是,csv 文件将添加新数据,如果数据库为空,我需要第一次添加所有数据,或者查看每一行,只将这些新数据添加到 mongoose 中。

我从这里所做的第一种方法(如代码中所示)是使用 async/await确保在继续事件处理程序之前已读取所有数据 end 。这有帮助,但我不时看到(使用 mongoose.set("debug", true); ),某些数据被查询两次,我不知道为什么。

第二种方法是不使用 async/await功能,这有一些缺点,因为数据没有完全查询,它直接进入事件处理程序 end然后insertMany一些能够被插入缓冲区的数据。

如果我坚持使用当前的方法,这不是问题,但查询将需要 1 到 2 分钟,更不用说如果数据库不断增长,时间会更长。因此,在查询的那几分钟内,事件队列被阻塞,因此当向服务器发送请求时,服务器超时。

我用过stream.pause()stream.resume()在此代码之前,但我无法让它工作,因为它只是直接跳到 end首先是事件处理程序。这会导致缓冲区自 end 以来每次都是空的。事件处理程序在 on 之前运行事件处理程序

我不记得我使用过的链接,但我从中获得的基础知识是通过这个。

Import CSV Using Mongoose Schema

我看到了这些帖子:

Insert a large csv file, 200'000 rows+, into MongoDB in NodeJS

Can't populate big chunk of data to mongodb using Node.js

与我需要的类似,但对我来说有点太复杂了,无法理解发生了什么。好像使用 socketchild process或许?此外,我仍然需要在添加到缓冲区之前检查条件

有人愿意指导我吗?

编辑:await 已从 console.log 中删除因为它不是异步的

最佳答案

fork 子进程方法:

  1. 当网络服务收到 csv 数据文件请求时,将其保存在应用程序中的某个位置
  2. fork 子进程 -> child process example
  3. 将文件 URL 传递给 child_process 以运行插入检查
  4. 当子进程处理完 csv 文件后,删除该文件

就像 Joe 所说的那样,当存在大量(数百万)元组时,对数据库建立索引会大大加快处理时间。

关于node.js - 处理 CSV 文件困难、浏览器超时,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52818093/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com