node.js - 具有大量查询的 node-postgres-6ren

node.js - 具有大量查询的 node-postgres

转载作者：IT老高更新时间：2023-10-28 23:24:09

27

4

我刚开始使用 node-postgres 使用 node.js 和 postgres。我尝试做的一件事是编写一个简短的 js 来填充我的数据库，使用一个包含大约 200,000 个条目的文件。

我注意到一段时间后(不到 10 秒)，我开始收到“错误:连接终止”。我不确定这是否与我使用 node-postgres 的方式有关，或者是因为我向 postgres 发送垃圾邮件。

无论如何，这里有一个显示这种行为的简单代码:

var pg = require('pg');
var connectionString = "postgres://xxxx:xxxx@localhost/xxxx";

pg.connect(connectionString, function(err,client,done){
  if(err) {
    return console.error('could not connect to postgres', err);
  }

  client.query("DROP TABLE IF EXISTS testDB");
  client.query("CREATE TABLE IF NOT EXISTS testDB (id int, first int, second int)");
  done();

  for (i = 0; i < 1000000; i++){
    client.query("INSERT INTO testDB VALUES (" + i.toString() + "," + (1000000-i).toString() + "," + (-i).toString() + ")",   function(err,result){
      if (err) {
         return console.error('Error inserting query', err);
      }
      done();
    });
  }
});

在大约 18,000-20,000 次查询后失败。这是使用client.query的错误方式吗？我尝试更改默认客户端编号，但似乎没有帮助。

client.connect() 似乎也没有帮助，但那是因为我有太多的客户端，所以我绝对认为客户端池是要走的路。

感谢您的帮助!

最佳答案

更新

此答案已被本文取代:Data Imports ，这代表了最新的方法。

为了复制您的场景，我使用了 pg-promise库，我可以确认，无论您使用哪个库，正面尝试都不会奏效，重要的是方法。

下面是一种改进的方法，我们将插入划分为 block ，然后在事务中执行每个 block ，这就是负载平衡(也称为限制):

function insertRecords(N) {
    return db.tx(function (ctx) {
        var queries = [];
        for (var i = 1; i <= N; i++) {
            queries.push(ctx.none('insert into test(name) values($1)', 'name-' + i));
        }
        return promise.all(queries);
    });
}
function insertAll(idx) {
    if (!idx) {
        idx = 0;
    }
    return insertRecords(100000)
        .then(function () {
            if (idx >= 9) {
                return promise.resolve('SUCCESS');
            } else {
                return insertAll(++idx);
            }
        }, function (reason) {
            return promise.reject(reason);
        });
}
insertAll()
    .then(function (data) {
        console.log(data);
    }, function (reason) {
        console.log(reason);
    })
    .done(function () {
        pgp.end();
    });

这在大约 4 分钟内产生了 1000,000 条记录，在前 3 笔交易之后显着放缓。我使用的是 Node JS 0.10.38(64 位)，它消耗了大约 340MB 的内存。这样我们插入了 100,000 条记录，连续 10 次。

如果我们这样做，只是这次在 100 个事务中插入 10,000 条记录，同样的 1,000,000 条记录在 1 分 25 秒内添加，没有减慢速度，Node JS 消耗大约 100MB 内存，这告诉我们像这样划分数据是个好主意。

不管你用哪个库，方法都应该是一样的:

将您的插入分区/限制到多个事务中；
将单个事务中的插入列表保持在大约 10,000 条记录；
在同步链中执行所有交易。
在每个事务的 COMMIT 之后将连接释放回池。

如果您违反任何这些规则，您肯定会遇到麻烦。例如，如果您违反规则 3，您的 Node JS 进程可能会很快耗尽内存并引发错误。我的示例中的规则 4 由库提供。

如果你遵循这个模式，你就不需要为连接池设置而烦恼了。

更新 1

pg-promise 的更新版本完美支持这样的场景，如下图:

function factory(index) {
    if (index < 1000000) {
        return this.query('insert into test(name) values($1)', 'name-' + index);
    }
}

db.tx(function () {
    return this.batch([
        this.none('drop table if exists test'),
        this.none('create table test(id serial, name text)'),
        this.sequence(factory), // key method
        this.one('select count(*) from test')
    ]);
})
    .then(function (data) {
        console.log("COUNT:", data[3].count);
    })
    .catch(function (error) {
        console.log("ERROR:", error);
    });

如果你不想包含任何额外的东西，比如创建表，那么它看起来更简单:

function factory(index) {
    if (index < 1000000) {
        return this.query('insert into test(name) values($1)', 'name-' + index);
    }
}

db.tx(function () {
    return this.sequence(factory);
})
    .then(function (data) {
        // success;
    })
    .catch(function (error) {
        // error;
    });

见 Synchronous Transactions详情。

使用 Bluebird 作为 Promise 库，例如，在我的生产机器上插入 1,000,000 条记录需要 1 分 43 秒(未启用长堆栈跟踪)。

您只需让您的 factory 方法根据 index 返回请求，直到您没有剩余，就这么简单。

最好的部分是，这不仅速度快，而且对您的 NodeJS 进程产生的负载也很小。在整个测试过程中，内存测试过程保持在 60MB 以下，仅消耗 CPU 时间的 7-8%。

更新 2

从版本 1.7.2 开始，pg-promise轻松支持超大规模交易。见章节Synchronous Transactions .

例如，我可以在 15 分钟内在我的家用 PC 上插入 10,000,000 条记录，使用 Windows 8.1 64 位。

为了测试，我将我的 PC 设置为生产模式，并使用了 Bluebird作为 promise 库。在测试期间，整个 NodeJS 0.12.5 进程(64 位)的内存消耗没有超过 75MB，而我的 i7-4770 CPU 显示出稳定的 15% 负载。

以同样的方式插入 100m 条记录只需要更多的耐心，而不是更多的计算机资源。

与此同时，之前对 1m Blade 的测试从 1m43s 下降到 1m31s。

更新 3

以下注意事项可能会产生巨大的影响:Performance Boost .

更新 4

相关问题，有更好的实现示例: Massive inserts with pg-promise .

更新 5

可以在此处找到更好和更新的示例:nodeJS inserting Data into PostgreSQL error

关于node.js - 具有大量查询的 node-postgres，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29100807/

27

4

0

文章推荐： linux - 错误 : Could not locate the bindings file. 已尝试:#56

文章推荐：安卓工作室 : sound notification on build success

文章推荐： node.js - MongoDB 3.0.1 身份验证问题 - RoboMongo

Mysql 查询 JOIN 查询
我有三张 table 。表 A 有选项名称(即颜色、尺寸)。表 B 有选项值名称(即蓝色、红色、黑色等)。表C通过将选项名称id和选项名称值id放在一起来建立关系。我的查询需要显示值和选项的名称，而
查询
在mysql中，如何计算一行中的非空单元格？我只想计算某些列之间的单元格，比如第 3-10 列之间的单元格。不是所有的列...同样，仅在该行中。最佳答案如果你想这样做，只能在 sql 中使用名称而
sql - 查询、 native 查询、命名查询和类型化查询之间的区别
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 7 年前。 Improve this ques
elasticsearch - 在Elasticsearch查询中没有为[查询]注册的[查询]
我正在为版本7.6进行Elasticsearch查询我的查询是这样的: { "query": { "bool": { "should": [ {
sql - 查询、 native 查询、命名查询和类型化查询之间的区别
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 7 年前。 Improve this ques
php - Mysql WHERE NOT EXISTS(查询)OR(查询)
是否可以编写一个查询来检查任一子查询(而不是一个子查询)是否正确？ SELECT * FROM employees e WHERE NOT EXISTS (
javascript - 查询。为表中的每一行发送 ajax 查询
我找到了很多关于我的问题的答案，但问题没有解决我有表格，有数据，例如: Data 1 Data 2 Data 3
salesforce - SOQL 查询 - 如何通过将字段设为小写并进行比较来编写 SOQL 查询？
以下查询返回错误: 查询: SELECT Id, FirstName, LastName, OwnerId, PersonEmail FROM Account WHERE lower(PersonEm
salesforce - SOQL 查询 - 如何通过将字段设为小写并进行比较来编写 SOQL 查询？
以下查询返回错误: 查询: SELECT Id, FirstName, LastName, OwnerId, PersonEmail FROM Account WHERE lower(PersonEm
Android SQLite 查询(我想解析一般的 SQL 查询)
我从 EditText 中获取了 String 值。以及提交查询的按钮。 String sql=editQuery.getText().toString();// SELECT * FROM empl
mysql 查询 - 为一个巨大的表优化现有的 MAX-MIN 查询
我有一个或多或少有效的查询(关于结果)，但处理大约需要 45 秒。这对于在 GUI 中呈现数据来说肯定太长了。所以我的需求是找到一个更快/更高效的查询(几毫秒左右会很好)我的数据表大约有 3000
SQL 查询 - 将 NULL 结果添加到 SELECT 查询
这是我第一次使用 Stack Overflow，所以我希望我以正确的方式提出这个问题。我有 2 个 SQL 查询，我正在尝试比较和识别缺失值，尽管我无法将 NULL 字段添加到第二个查询中以识别缺失
sql - 什么是动态 SQL 查询？何时需要使用动态 SQL 查询？
什么是动态 SQL 查询？何时需要使用动态 SQL 查询？我使用的是 SQL Server 2005。最佳答案这里有几篇文章: Introduction to Dynamic SQL Dynami
php - 在另一个 mysql 查询 while 循环中调用 mysql 查询
include "mysql.php"; $query= "SELECT ID,name,displayname,established,summary,searchlink,im
java - MySQL 查询 "select top 5"查询
我有一个查询要“转换”为 mysql。这是查询: select top 5 * from (select id, firstName, lastName, sum(fileSize) as To
c# - Entity Framework 查询 ToString 不会产生 SQL 查询
通过我的研究，我发现至少从 EF 4.1 开始，EF 查询上的 .ToString() 方法将返回要运行的 SQL。事实上，这对我来说非常有用，使用 Entity Framework 5 和 6。但
MySQL 查询(或 Doctrine 1.2 查询)- 从连接表和过滤器中获取最新项目
我在构造查询来执行以下操作时遇到问题: 按activity_type_id过滤联系人，仅显示最近事件具有所需activity_type_id或为NULL(无事件)的联系人表格结构如下: 一个联系人可
php - 如何在执行另一个 SQL 查询 x 分钟后执行一个 SQL 查询？
如何让我输入数据库的信息在输入数据 5 分钟后自行更新？假设我有一张 table : +--+--+-----+ |id|ip|count| +--+--+-----+ |
database - 如何在 N1QL 查询(Couchbase 查询)中使用 LENGTH() 字符串函数
我正在尝试搜索正好是 4 位数字的 ID，我知道我需要使用 LENGTH() 字符串函数，但找不到如何使用它的示例。我正在尝试以下(和其他变体)但它们不起作用。 SELECT max(car_id)
php - 将 SQL 查询 (+JOIN) 转换为 Symfony Propel 查询
我有一个在 mysql 上运行良好的 sql 查询(查询 + 连接): select sum(pa.price) from user u , purchase pu , pack pa where (

首页

博学

6Ren·AI

商城

node.js - 具有大量查询的 node-postgres