node.js - 检测到 EventEmitter 内存泄漏 : Proper way to pass CSV data to multiple modules?-6ren

node.js - 检测到 EventEmitter 内存泄漏 : Proper way to pass CSV data to multiple modules?

转载作者：太空宇宙更新时间：2023-11-03 23:32:50

我正在尝试以自己的方式使用不同的 npm 模块，而在我刚刚执行之前已经创建了 gulpfiles。 npm 模块 penthouse加载网页并确定该页面的首屏 CSS。我正在尝试采用该模块并将其与网站爬虫一起使用，这样我就可以获得所有页面的折叠 CSS 上方，并将该 CSS 存储在表中。

所以本质上我是:

抓取网站以获取所有网址
从每个网址捕获页面 ID
将页面及其 ID 存储在 CSV 中
加载 CSV 并将每个 URL 传递到 penthouse
获取顶层公寓输出并将其存储在表中

所以直到最后两步我都很好。当我读取 CSV 时，收到错误检测到可能的 EventEmitter 内存泄漏。添加了 11 个退出监听器。使用emitter.setMaxListeners()来增加限制。

堆栈跟踪点 here在第 134 行。阅读完该错误后，这是有道理的，因为我看到添加了一堆事件监听器，但我没有看到 penthouse 真正执行和关闭事件监听器。

它按预期独立工作得很好(针对单个页面运行 penthouse 然后退出)。但是，当我执行下面的代码尝试循环遍历 csv 中的所有 URL 时，它会两次吐出内存泄漏错误，然后挂起。以下脚本中的 console.log 语句均未执行。

但是，我将 console.log 添加到 penthouse index.js 文件的末尾，并且它被执行多次(其中添加事件监听器)，但它永远不会超时或退出。

所以很明显我没有正确集成它，但不确定如何继续。强制它一次读取 CSV 中的一行，处理 URL，然后获取输出并将其存储在数据库中，然后再转到下一行，最好的方法是什么？

const fs = require('fs');
var csv = require('fast-csv');
var penthouse = require('penthouse'),
    path = require('path');

 var readUrlCsv = function() {
  var stream = fs.createReadStream("/home/vagrant/urls.csv");

  var csvStream = csv()
      //returns single line from CSV
      .on("data", function(data) {

        // data[0]: table id, data[1]: page type, data[2]: url
        penthouse({
            url : data[2],
            css : './dist/styles/main.css'

        }, function(err, criticalCss) {
            if (err) {
              console.log(err);
            }
            console.log('do we ever get here?'); //answer is no

            if (data[1] === 'post') {

              wp.posts().id( data[0] ).post({
                  inline_css: criticalCss
              }).then(function( response ) {
                console.log('saved to db');
              });
            } else {
              wp.pages().id( data[0] ).page({
                  inline_css: criticalCss
              }).then(function( response ) {
                  console.log('saved to db');
              });
            }
        });
      })
      .on("end", function(){
           console.log("done");
      });

  return stream.pipe(csvStream);
};

更新

将我的方法更改为如下所示，以便它首先处理所有行，但仍然引发相同的错误。将“done”写入控制台，并立即吐出两次内存警告。

var readUrlCsv = function() {
  var stream = fs.createReadStream("/home/vagrant/urls.csv");
  var urls = [];
  var csvStream = csv()
      .on("data", function(data) {
        // data[0]: table id, data[1]: page type, data[2]: url
        urls.push(data);        
      })
      .on("end", function(){
           console.log("done");
           buildCriticalCss(urls);
      });

  return stream.pipe(csvStream);
};

var buildCriticalCss = function(urls) {
  //console.log(urls);
  urls.forEach(function(data, idx) {
    //console.log(data);
    penthouse({
            url : data[2],
            css : './dist/styles/main.css',
            // OPTIONAL params
            width : 1300,   // viewport width
            height : 900,   // viewport height
            timeout: 30000, // ms; abort critical css generation after this timeout
            strict: false, // set to true to throw on css errors (will run faster if no errors)
            maxEmbeddedBase64Length: 1000 // charaters; strip out inline base64 encoded resources larger than this
        }, function(err, criticalCss) {
            if (err) {
              console.log(err);
            }
            console.log('do we ever finish one?');
            if (data[1] === 'post') {
              console.log('saving post ' + data[0]);
              wp.posts().id( data[0] ).post({
                  inline_css: criticalCss
              }).then(function( response ) {
                console.log('saved post to db');
              });
            } else {
              console.log('saving page ' + data[0]);
              wp.pages().id( data[0] ).page({
                  inline_css: criticalCss
              }).then(function( response ) {
                  console.log('saved page to db');
              });
            }
        });
    });
};

更新2

我采用了简单的方法来控制生成的并发进程的数量。

var readUrlCsv = function() {
  var stream = fs.createReadStream("/home/vagrant/urls.csv");
  var urls = [];
  var csvStream = csv()
      .on("data", function(data) {
        // data[0]: table id, data[1]: page type, data[2]: url
        urls.push(data);        
      })
      .on("end", function(){
           console.log("done");
           //console.log(urls);
           buildCriticalCss(urls);
      });

  return stream.pipe(csvStream);
};


function buildCriticalCss(data) {
    var row = data.shift();
    console.log(row);
    penthouse({
        url : row[2],
        css : './dist/styles/main.css',
        // OPTIONAL params
        width : 1300,   // viewport width
        height : 900,   // viewport height
        timeout: 30000, // ms; abort critical css generation after this timeout
        strict: false, // set to true to throw on css errors (will run faster if no errors)
        maxEmbeddedBase64Length: 1000 // charaters; strip out inline base64 encoded resources larger than this
    }, function(err, criticalCss) {
      if (err) {
        console.log('err');
      }
      // handle your criticalCSS
      console.log('finished');
      console.log(row[2]);
      // now start next job, if we have more urls
      if (data.length !== 0) {
        buildCriticalCss(data);
      }
    });
}

最佳答案

您看到的错误消息是 Node 的event默认打印到控制台的错误消息。如果为 EventEmitter 实例定义的事件监听器数量超过允许数量，则使用库。它不表明存在实际的内存泄漏。相反，显示它是为了确保您了解泄漏的可能性。

您可以通过检查 event.EventEmitter 源代码第 20 行看到这一点。和 244 .

要阻止 EventEmitter 显示此消息，并且由于 penthouse 不公开其特定的 EventEmitter，您需要使用以下方法将默认允许的事件发射器监听器设置为大于其默认值 10:

var EventEmitter=require('event').EventEmitter;

EventEmitter.defaultMaxListeners=20;

请注意，根据 Node 的文档 EventEmitter.defaultMaxListeners ，这将更改 EventEmitter 的所有实例的最大监听器数量，包括在更改之前已定义的监听器。

或者您可以直接忽略该消息。

除了挂起代码之外，我建议将 CSV 解析的所有结果收集到一个数组中，然后与解析过程分开处理数组内容。

这将完成两件事:它将使您能够

请确保在开始处理之前整个 CSV 文件都是有效的，并且
在处理每个元素时检测调试消息，这将使您更深入地了解数组中每个元素的处理方式。

更新

如下所述，根据您正在处理的 URL 数量，您可能会超出 Node 并行处理所有请求的能力。

一种简单的继续方法是使用事件来编码处理，以便按顺序处理您的 URL，如下所示:

var assert=require('assert'),
    event=require('events'),
    fs=require('fs'),
    csv=require('fast-csv');
    penthouse=require('penthouse');

var emitter=new events.EventEmitter();

/** Container for URL records read from CSV file.
 * 
 * @type {Array}
 */
var urls=[];

/** Reads urls from file and triggers processing
 *
 *  @emits processUrl
 */
var readUrlCsv = function() {

  var stream = fs.createReadStream("/home/vagrant/urls.csv");

  stream.on('error',function(e){ // always handle errors!!
    console.error('failed to createReadStream: %s',e);
    process.exit(-1);
  });

  var csvStream = csv()
    .on("data", function(data) {
      // data[0]: table id, data[1]: page type, data[2]: url
      urls.push(data);        
    })
    .on("end", function(){
       console.log("done reading csv");
       //console.log(urls);
       emitter.emit('processUrl'); // start processing URLs
    })
    .on('error',function(e){
      console.error('failed to parse CSV: %s',e);
      process.exit(-1);
    });

  // no return required since we don't do anything with the result
  stream.pipe(csvStream);
};

/** Event handler to process a single URL
 *
 * @emits processUrl
 */
var onProcessUrl=function(){

  // always check your assumptions
  assert(Array.isArray(urls),'urls must be an array');

  var urlRecord=urls.shift();

  if(urlRecord){

    assert(Array.isArray(urlRecord),'urlRecord must be an array');

    assert(urlRecord.length>2,'urlRecord must have at least three elements');

    penthouse(
      { 
        // ... 
      }, 
      function(e,criticalCss){
        if(e){
          console.error('failed to process record %s: %s',urlRecord,e);
          return; // IMPORTANT! do not drop through to rest of func!
        }

        // do what you need with the result here

        if(urls.length===0){ // ok, we're done
          console.log('completed processing URLs');
          return;
        }

        emitter.emit('processUrl'); 
      }
    );
  }
}

/**
  * processUrl event - triggers processing of next URL
  *
  * @event processUrl
  */
emitter.on('processUrl',onProcessUrl); // assign handler

// start everything going...
readUrlCsv();

在这里使用事件而不是您的解决方案的好处是缺乏递归，这很容易压垮您的堆栈。

提示:您可以使用事件来处理通常由 Promise 或 async 等模块解决的所有程序流问题。

由于事件是 Node 的核心(“事件循环”)，因此它确实是解决此类问题的最佳、最有效的方法。

它既优雅又“Node 方式”!

这是一个gist说明了该技术，不依赖于流或 penthouse，其输出为:

url: url1
RESULT: RESULT FOR url1
url: url2
RESULT: RESULT FOR url2
url: url3
RESULT: RESULT FOR url3
completed processing URLs

关于node.js - 检测到 EventEmitter 内存泄漏 : Proper way to pass CSV data to multiple modules?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36105605/

文章推荐： node.js - 重新连接事件时是否重用套接字？

文章推荐： objective-c - NSZombieEnabled 是否只适用于 Objective-C 代码？

文章推荐：我可以同时初始化和使用两个 Lua 缓冲区吗？

文章推荐： node.js - 如何使 npm stop 永远终止正确的操作

parameter-passing - vala 是 "pass by reference"还是 "pass by value"？
或者存在像这样的指针和引用C ? 我正在尝试开始使用 vala，但很高兴知道 vala 是“按引用传递”还是“按值传递” 最佳答案首先你应该明白默认的vala编译器valac编译为 C(作为一种中
parameter-passing - "pass by reference"是糟糕的设计吗？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
php - crypt($pass, '$2y$09$salt' ) === crypt($pass, crypt($pass, '$2y$09$salt' )) 在 PHP 中如何运行？
我确实对 crypt() PHP 函数感到困惑。当第二个 crypt 显然使用不同的第二个参数时，以下两个 crypt 函数如何给出相同的输出？差异盐意味着差异哈希对吗？ echo crypt("p
pass-by-reference - 方案 R5RS : pass by reference
我正在尝试在方案中模拟堆栈。我正在使用 DrScheme 并选择语言 R5RS。我需要创建 pop、push 和 peek 的函数。但我无法弄清楚如何通过引用传递。我已经阅读了一些关于盒子的信息，但是
parameter-passing - "pass-by-name"是什么？它到底是如何工作的？
我已经查过维基百科并用 google 搜索过，但我仍然无法理解 ALGOL 60 中的按名称传递的工作原理。最佳答案我在 Pass-By-Name Parameter Passing 找到了很好的
arrays - Excel VBA 编程与数组 : To Pass them or Not To Pass them?
问题:我想知道在 Excel 2003 VBA 中处理数组的最佳解决方案是什么背景:我在 Excel 2003 中有一个超过 5000 行的宏。我在过去 2 年中构建了它，将新功能添加为新过程，这有
Java数组:Java pass by reference and pass by value?
我正在尝试反转位图数组，而不修改源数组。但问题是源数组也被颠倒了。我做错了什么还是我应该以其他方式做？感谢您的帮助。 private GalleryAdapter galleryAdapter; pr
java - Java中 'pass by reference'/'pass by value'变量赋值的规则是什么？
因此，关于按引用传递/按值传递，方法如何处理参数传递已有详细记录，但是变量赋值又如何呢？例如，我刚刚编写了一些如下所示的代码: TreeNode parent = null; TreeNode cu
Python 脚本利用 pass 进行异常处理，pass 似乎无法正常运行
我正在编写一个脚本，它将从我们的星号系统中回填调用详细记录到我们的 MySQL 日志数据库中。在下面的代码中，我试图忽略重复键并继续到下一行，但是当这段代码执行时，我所看到的只是第一行欺骗警告，然后脚
parameter-passing - Symfony : pass parameter between actions (with a redirect)
我从一个 Action (executeProcess)重定向到另一个(executeIndex)。我希望能够不使用GET传递参数/变量(例如$this->redirect('index', arra
oop - 设计问题 : pass the fields you use or pass the object?
我经常看到方法接口(interface)的两种相互冲突的策略，大致概括如下: // Form 1: Pass in an object. double calculateTaxesOwed(TaxFo
javascript - JavaScript 回调中术语 "pass"或 "passing"some 是什么意思？
目前正在学习回调在 JavaScript 中的含义，我正在努力理解回调是如何工作的，以及术语“passing this”或“passing that”的来源以及它如何与回调一起工作？我想展示一些示例代
parameter-passing - 甲骨文顶点 : Accessing params passed through URL
我通过 URL 传递参数并且页面被正确重定向。如何访问下一个(重定向的)页面上(从上一页)传递并在 URL 中可用的参数？谁能告诉我该怎么做？或者有没有其他的方式在页面之间传递参数？是否有类似 A
parameter-passing - 甲骨文顶点 : Accessing params passed through URL
我通过 URL 传递参数并且页面被正确重定向。如何访问下一个(重定向的)页面上(从上一页)传递并在 URL 中可用的参数？谁能告诉我该怎么做？或者有没有其他的方式在页面之间传递参数？是否有类似 A
python - 参数 : passed by reference vs passed by name
按引用传递和按名称传递的参数传递模式有什么区别这里是 Python 中的一个示例，但假设我们不使用任何 Python 规则: def P(x,y) global i y=1 prin
c++ - 你能从 LLVM pass 调用 pass 吗？
我正在编写自己的 LLVM pass，它修改了 LLVM 位码。在生成位码时，我想禁用函数内联，但是当我完成对位码的修改后，我想调用执行函数内联的传递。这个可以吗。如果是，如何？为了更好地理解我在说
c++ - 模板函数 : mixing pass-by-copy & pass-by-reference
我有一个模板函数，负责将模板值写入流。它看起来像这样: template void Write( T value, std::ostream& stream, endianness_t endian
c++ - 如何从 LLVM pass 执行 yosys passes？
我一直在使用两个程序 llvm 的 opt 和 clifford wolf 的 yosys两者都有类似的通行证接口(interface)。(他们使用共享库作为优化 passes ) 我想根据我的 ll
java - Pass by value vs Pass by reference(两者在内存空间分配上的区别)
在我们使用引用传递的 C++ 中，我们引用了我们从参数传递给函数参数的地址，它本质上是一个指针，对吗？因此，虽然它们本质上是相同的东西，别名和所有，但指针不也需要内存空间吗？因此，无论我们在参数函数中
C++ 64 位整数 : pass by reference or pass by value
这是一个关于 64 位整数的效率问题。假设我不需要修改“int”参数的值，我应该通过值还是引用传递它。假设是 32 位机: 1) 32 位 int:我猜答案是“按值传递”，因为“按引用传递”会产生额

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

node.js - 检测到 EventEmitter 内存泄漏 : Proper way to pass CSV data to multiple modules?