node.js - 在 NodeJS 中将 200'000 行以上的大型 csv 文件插入 MongoDB-6ren

node.js - 在 NodeJS 中将 200'000 行以上的大型 csv 文件插入 MongoDB

转载作者：IT老高更新时间：2023-10-28 12:29:30

27

4

我正在尝试解析一个大的 csv 文件并将其插入 MongoDB，但是当文件扩展 100'000 行时，我得到了来自服务器的错误响应。而且我需要插入的文件通常在 200'000 行以上。

我已经尝试过批量插入 (insertMany) 和 Babyparse(Papaparse) 流式方法来逐行插入文件。但效果不佳。

Node 接口(interface):

router.post('/csv-upload/:id', multipartMiddleware, function(req, res) {

    // Post vartiables
    var fileId = req.params.id;
    var csv = req.files.files.path;

    // create a queue object with concurrency 5
    var q = async.queue(function(row, callback) {
        var entry = new Entry(row);
        entry.save();
        callback();
    }, 5);

    baby.parseFiles(csv, {
        header: true, // Includes header in JSON
        skipEmptyLines: true,
        fastMode: true,
        step: function(results, parser) {
            results.data[0].id = fileId;

            q.push(results.data[0], function (err) {
                if (err) {throw err};
            });
        },
        complete: function(results, file) {
            console.log("Parsing complete:", results, file);
            q.drain = function() {
                console.log('All items have been processed');
                res.send("Completed!");
            };
        }
    });
});

这种流式处理方法会导致:POST SERVER net::ERR_EMPTY_RESPONSE

不确定我是否正确使用了 async.queue。

有没有更好、更有效的方法来做到这一点，或者我做错了什么？

express 服务器:

// Dependencies
var express = require('express');
var path = require('path');
var bodyParser = require('body-parser');
var routes = require('./server/routes');
var mongoose = require("mongoose");
var babel = require("babel-core/register");
var compression = require('compression');
var PORT = process.env.PORT || 3000;
// Include the cluster module
var cluster = require('cluster');

mongoose.connect(process.env.MONGOLAB_URI || 'mongodb://localhost/routes');

  // Code to run if we're in the master process
 if (cluster.isMaster) {

    // Count the machine's CPUs
    var cpuCount = require('os').cpus().length;

    // Create a worker for each CPU
    for (var i = 0; i < cpuCount; i += 1) {
        cluster.fork();
    }

 // Code to run if we're in a worker process
 } else {
    // Express
    var app = express();

    app.use(bodyParser.json({limit: '50mb'}));
    app.use(bodyParser.urlencoded({limit: '50mb', extended: true}));

    // Compress responses
    app.use(compression());

    // Used for production build
    app.use(express.static(path.join(__dirname, 'public')));

    routes(app);

    // Routes
    app.use('/api', require('./server/routes/api'));

    app.all('/*', function(req, res) {
        res.sendFile(path.join(__dirname, 'public/index.html'));
    });

    // Start server
    app.listen(PORT, function() {
        console.log('Server ' + cluster.worker.id + ' running on ' + PORT);
    });
}

最佳答案

处理导入:

很好的问题，根据我的经验，将 csv 插入 mongo 的最快方法是通过命令行:

mongoimport -d db_name -c collection_name --type csv --file file.csv --headerline

我不相信 mongoose 有调用 mongoimport 的方法(如果我错了，请有人纠正我)

但是直接通过node调用就很简单了:

var exec = require('child_process').exec;
var cmd = 'mongoimport -d db_name -c collection_name --type csv --file file.csv --headerline';

exec(cmd, function(error, stdout, stderr) {
  // do whatever you need during the callback
});

以上内容必须修改为动态的，但应该是不言自明的。

处理上传:

从前端客户端上传文件是另一个挑战。

如果您向服务器发出请求并且在 60 秒内没有得到响应(可能是您在上面提到的)，大多数浏览器都会超时

一种解决方案是打开一个套接字连接(在 npm 中搜索 socket.io)以获取详细信息。这将创建与服务器的持续连接，并且不受超时限制。

如果上传不是问题，并且超时是由于解析/插入速度慢，那么一旦您实现了上述操作，您就不必担心这一点。

其他注意事项:

我不确定您需要向用户发送回什么，或者需要进行什么解析。但这既可以在正常的请求/响应周期之外完成，也可以在一个请求/响应周期中需要时在套接字连接期间进行处理。

关于node.js - 在 NodeJS 中将 200'000 行以上的大型 csv 文件插入 MongoDB，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41858045/

27

4

0

文章推荐： flutter - 如何在 ListView 中添加滚动指示器

文章推荐： flutter - 如何从 Flutter 应用程序调用电话

文章推荐： linux - 在文本文件中取第 n 列

mongodb - 使用 mongodb+srv 连接到部署为有状态集的 mongodb
我已经在 kubernetes 中部署了一个 3 pod mongodb statefulset，并且我正在尝试使用新的 mongodb+srv 连接字符串 (mongodb 3.6) 连接到具有 S
mongodb - 如何使用 MongoDB Atlas 连接 MongoDB
我已经创建了 MongoDB Atlas 帐户，并尝试连接。但出现以下错误。 MongoDB 连接错误 MongoNetworkError: 首次连接时无法连接到服务器 [cluster0-shard
mongodb - JsonLD+MongoDB : Store JsonLD in MongoDB
我正在使用 Node-WebKit 创建桌面应用程序。该应用程序基本上是创建文档(员工日常工作的详细信息)，任何注册用户都可以对这些文档发表评论。我正在创建的文档将被分成几个部分。用户将对特定部分发表
mongodb - 服务 'MongoDB Server' (MongoDB) 启动失败
我正在尝试使用官方网站上的安装程序在我的本地机器上安装 mongo DB。但是我不断收到这条消息，有人可以帮忙吗？我试过提供的解决方案 here但没有帮助。最佳答案我建议执行以下操作: 按 Wi
mongodb - 如何使用 MongoDB 指南针删除 MongoDB 集合中选定的多条记录
我对 MongoDB 和 MongoDB Compass 非常陌生。我的客户集合中有大约 1000 条记录。如何通过 MongoDB 指南针一次删除所有记录。非常感谢，最佳答案您可以使用 Mo
mongodb - mongodb 和 mongodb-server 的区别
当我尝试在我的 Ubuntu 机器中安装 mongodb 时，apt-get 会显示以下选项 mongodb mongodb-clients mongodb-dev mongodb-server 谁能
mongodb - 如何将 mongodb 客户端连接到本地 Meteor MongoDB
如何将 Robomongo(或任何其他 mongodb 客户端)连接到由本地 Meteor 应用程序创建的 mongodb 实例？最佳答案确保 Meteor 正在本地主机上运行。打开终端窗口并运行
mongodb - 频率表生成 - MongoDB
我需要在 MongoDB 中生成一个简单的频率表。假设我在名为 books 的集合中有以下文档。 { "_id": 1, genre: [ "Fantasy", "Crime"
mongodb - mongodb mapreduce中的where条件
我如何在 mongos mapreduce 中指定一个条件，就像我们在 mongos group 函数中所做的那样。我的数据是这样的 {lid:1000, age:23}, {lid:3000, a
mongodb - 从 mongodb shell 运行具有 mongodb 查询的脚本
我的 mongodb 数据库文档中有几个 ID。我需要通过脚本在这些 ID 上创建索引，这样我就不必一次又一次地运行 ensureIndex 命令。 db.getCollection("element
mongodb - 比较嵌套数组中的对象 - mongoDB
在我的数据库中，每个包含项目的文档中都有一个嵌套的元素数组，格式如下: elements:[ { "elem_id": 12, items: [ {"i_id": 1
mongodb - MongoDB 上的时区查询
我正在构建一个应用程序，其中用户可以位于不同的时区，并且我运行的查询对他们的时区很敏感。我遇到的问题是 MongoDB 似乎在查询时忽略了时区! 这是日期字段“2019-09-29T23:52:13
mongodb - 为什么当我添加新集合时只有一个分片获取数据？ - MongoDB
我正在研究使用 mongodb 进行分片，我有以下结构: 1 个 Mongod 到我的 ConfigServer，在 ReplicaSet 中只有 1 个成员 2 个分片，每个分片在 ReplicaS
mongodb - mongoDB 中是否可以使用循环对象引用？
我正在尝试获取一个 mongoDB 对象，例如 Friend1 包含另一个 mongoDB 对象 Friend2，该对象又包含第一个对象 Friend1本质上使它成为一个循环对象引用。要么这样，要么
mongodb - 通过命令行正确卸载 MongoDB
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题？ Update the question所以它是on-topic对于堆栈溢出。 9年前关闭。 Improve this que
mongodb - 无法通过终端使用身份验证数据连接 mongodb
Mongo 版本 5.0.2。 Ubuntu 20.0 我在本地主机中启用了 MongoDB 连接的安全性。我正在尝试通过以下命令使用身份验证详细信息连接我的本地主机 MongoDBmongo ad
mongodb - 当配置实例使用与数据实例相同的二进制文件时升级 Mongodb
我即将将分片的 MongoDB 环境从 2.0.7 升级到 2.2.9，最终我想升级到 2.4.9，但显然我需要通过 2.2 来完成。 2.2 的发行说明声明配置服务器应该首先升级其二进制文件，然后是
mongodb - 无法远程连接到 mongodb
目前，我无法在我的虚拟 Ubuntu 机器上远程连接 mongodb 服务器。我无法使用在我的 Windows PC 上运行的 Robomongo 客户端连接，该 PC 也运行 vm。这是两台电脑的
mongodb - 如何从 mongodb compass 连接 mongodb 集群？
我创建了一个免费的 mongodb 集群。我创建了一个用户，设置了与 mongodb compass 的连接，复制了连接字符串，然后打开了我的 mongodb compass。将复制的字符串粘贴到那里
mongodb - MongoDB 索引名称
我使用 java 代码创建了 mongo 数据库集合索引 dbCollection.createIndex("accountNumber"); 当我看到索引使用 db.accounts.getInde

首页

博学

6Ren·AI

商城

node.js - 在 NodeJS 中将 200'000 行以上的大型 csv 文件插入 MongoDB