node.js - 从内存消耗低的流中提取二进制值-6ren

node.js - 从内存消耗低的流中提取二进制值

转载作者：搜寻专家更新时间：2023-10-31 22:25:09

24

4

我正在使用 ExpressJS 构建一个 NodeJS 服务器，该服务器处理通过 POST 请求 从桌面应用程序发送的数据(50KB 到 >100MB)待处理并退回。桌面应用程序 gzip 在发送之前压缩数据(50KB 变成 4KB)。

我希望服务器解压缩数据，从数据中提取值(字符串、整数、字符、数组、json 等)，处理该数据，然后用处理后的数据进行响应。

我从这个开始:

apiRoute.route("/convert").post(bodyParser.raw({limit: '100Mb'}), (req, res) =>{
    let outputData;
    //extract values from req.body Buffer and do math on them.
    //save processed data in outputData

    res.json({
        status: true,
        data: outputData
    });
});

这是有效的，因为 body-parser 将数据解压缩到存储在内存中的 Buffer req.body 中。这是我的主要问题......内存使用。我不想将整个数据集存储在内存中。

为了解决这个问题，我删除了 body-parser，而是将请求流直接通过管道传输到 zlib 转换流中:

apiRoute.route("/convert").post((req, res) =>{
    req.pipe(zlib.createGunzip());
});

现在的问题是我不知道如何从流中提取二进制值。

这是我希望能够做到的:

apiRoute.route("/convert").post((req, res) =>{
    let binaryStream = new stream.Transform();

    req
    .pipe(zlib.createGunzip())
    .pipe(binaryStream);

    let aValue = binaryStream.getBytes(20);//returns 20 bytes
    let bValue = binaryStream.getBytes(20000);//returns the next 20000 bytes
    //etc...

});

但是我不知道有什么方法可以做到这一点。类似 Dissolve 的模块很接近，但是它们要求您提前设置解析逻辑，并且所有抓取的值都存储在内存中。

另外，我不知道如何在不将其全部加载到内存的情况下响应 outputData。

所以我的问题是，我该如何...

以我自己的速率异步读取流中的数据并提取其中的值
将处理后的数据发送回桌面应用程序，而不将其全部放入内存

最佳答案

我解决了我自己的问题。我不是 100% 确信这是实现此目标的最佳方法，因此我愿意接受建议。

我做了一个 stream.Transform 的子类并实现了 _transform 方法。我发现下一个数据 block 只有在 _transform 回调被调用时才会得到输入。知道这一点后，我将该回调函数存储为一个属性，并且仅在需要下一个 block 时调用它。

getBytes(size) 是一种方法，它将从当前 block (也保存为属性)中获取指定数量的字节，并在需要下一个 block 时调用之前保存的回调。这是递归完成的，以考虑不同大小的 block 和不同数量的请求字节。

然后结合使用 async/await 和 promises，我能够使整个过程保持异步 (afaik) 和背压。

const {Transform} = require('stream'),
events = require('events');

class ByteStream extends Transform{

    constructor(options){
        super(options);

        this.event_emitter = new events.EventEmitter();
        this.hasStarted = false;
        this.hasEnded = false;
        this.currentChunk;
        this.nextCallback;
        this.pos = 0;

        this.on('finish', ()=>{
            this.hasEnded = true;
            this.event_emitter.emit('chunkGrabbed');
        });
    }

    _transform(chunk, enc, callback){
        this.pos = 0;
        this.currentChunk = chunk;
        this.nextCallback = callback;

        if(!this.hasStarted){
            this.hasStarted = true;
            this.event_emitter.emit('started');
        }
        else{
            this.event_emitter.emit('chunkGrabbed');
        }
    }

    doNextCallback(){
        return new Promise((resolve, reject) =>{
            this.event_emitter.once('chunkGrabbed', ()=>{resolve();});
            this.nextCallback();
        });
    }

    async getBytes(size){
        if(this.pos + size > this.currentChunk.length)
        {
            let bytes = this.currentChunk.slice(this.pos, this.currentChunk.length);

            if(!this.hasEnded)
            {
                var newSize = size-(this.currentChunk.length - this.pos);
                //grab next chunk
                await this.doNextCallback();
                if(!this.hasEnded){
                    this.pos = 0;
                    let recurseBytes; await this.getBytes(newSize).then(bytes => {recurseBytes = bytes;});
                    bytes = Buffer.concat([bytes, recurseBytes]);
                }
            }

            return bytes;
        }
        else{
            let bytes = this.currentChunk.slice(this.pos, this.pos+size);
            this.pos += size;
            return bytes;
        }
    }
}

module.exports = {
    ByteStream : ByteStream 
}

我现在的 express 路线是:

apiRoute.route("/convert").post((req, res)=>{

    let bStream = new ByteStream({});
    let gStream = zlib.createGunzip();

    bStream event_emitter.on('started', async () => {
        console.log("started!");

        let myValue; await bStream.getBytes(60000).then(bytes => {myValue = bytes});
        console.log(myValue.length);
    });

    req
    .pipe(gStream)
    .pipe(bStream);
});

通过检查事件 started，我可以知道第一个 block 何时流式传输到 bStream。从那里开始，只需使用我想要的字节数调用 getBytes()，然后将 promise 的值分配给变量即可。它可以满足我的需要，尽管我还没有进行任何严格的测试。

关于node.js - 从内存消耗低的流中提取二进制值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55365136/

24

4

0

文章推荐： ios - 动画停止时如何使动画速度变慢

文章推荐： javascript - 清除值后无法附加到文本区域

spring - 消耗 HATEOAS 资源
我有一个简单的 HATEOAS 使用构建的提供程序 Spring 这为我提供了以下资源: { "_links" : { "self" : { "href" : "http:/
Clojure 函数体中不同位置的惰性 seq 消耗
这里是 Clojure 初学者，不确定问题中的术语是否正确。我正在使用 clj-webdriver 出租车 API 构建网络抓取工具。它需要从多个站点抓取数据。以下实际上不是项目中的代码，但我已经对
c++ - 如何通过固定线程循环周期最小化 CPU 消耗
我使用pthread lib 2.8，操作系统内核是arm上的Linux 2.6.37。在我的程序中，线程 A 使用 pthread 接口(interface)将调度优先级设置为 sched_get_
c++ - 打开文件时的 RAM 消耗
我有一个大约 400MB 的二进制文件，我想将其转换为 CSV 格式。输出的 CSV 文件将约为 1GB(根据我的计算)。我读取二进制文件并将其存储在一个结构数组中(其他处理也需要)，当用户想要将其
c++ - 串行端口线程的 CPU 消耗
我在编写我的专业应用程序时遇到一个串口线程问题。我有cpu消耗。当我在我的项目中添加 SerialCtrl.h(来自项目 SerialCtrl http://www.codeproject.com/A
c - 由于可变排序而导致不同的 RAM 消耗
总结:似乎 c 代码的 RAM 消耗取决于变量排序。有没有办法自动优化？更长的版本:在这里，我粘贴了两个版本的代码，它们仅在变量排序方面有所不同。版本 1: static unsigned lon
C#:使用位图时如何减少内存和 CPU 消耗？
我有一个处理图像编辑(裁剪和调整大小)的 Windows 应用程序项目。不幸的是，这些图像处理会消耗大量内存和 CPU 资源(很容易达到 600MB 或 50% cpu)，而且它只是裁剪和调整大小 2
c++ - 为什么在类实例化期间没有 CPU 消耗？
我创建了一个实例化类 10 亿次的循环，并且非常惊讶地看到它在 0 毫秒内运行并且根据 Windows 任务管理器没有消耗 CPU 时间。正如您从下面的代码中看到的那样，我显然没有对默认构造函数执行
java - 用户名的正则表达式会增加 CPU 消耗
我们有以下用户名验证规则: 用户名可以包含字母数字字符用户名可以有下划线、连字符或句号现在假设用户名是 ASCII 用户名不能以句点开头或结尾用户名不能开始、结束或有任何空格我们有以下相同的正
c# - 列出所有进程及其当前内存和 CPU 消耗？
如何获取 C# 中所有进程的列表，然后获取每个进程的当前内存和 CPU 消耗？非常感谢示例代码。最佳答案 Process class有一个 GetProcesses 方法，可以让您枚举正在运行的进
c - 如何限制进程中的 RAM 消耗？
如何从 linux 2.6.32 机器上的源代码中限制 C 程序的物理内存消耗？我需要确定系统使用的页面替换算法的类型。问题是，如果不限制一个进程在内存中可以拥有的页面数量，就很难分析页面错误的模
linux - 跟踪线程内存和 CPU 消耗
我正在编写一个 Linux 应用程序，它观察其他应用程序并跟踪资源消耗。我计划使用 Java，但编程语言对我来说并不重要。目标很重要，所以我可以切换到另一种技术或使用模块。我的应用程序将任何选定的第三
Java，JCheckbox - 消耗/阻止所有事件，但仍然启用
我有一个图标，旁边有一个复选框，包含在一个面板中。面板有悬停效果，点击面板时想选中框。我想使用或阻止复选框的所有事件，仅以编程方式选择它。我希望该框在屏幕上显示为“已启用”，而“在幕后”几乎不起作用
javascript - 消耗 angular.js 剩余请愿书的所有记录
我正在使用服务 REST，它当前有 5025 条记录，但当我使用该服务时，只出现 1,000 条记录。我可以做什么来完全消耗所有记录？这是我的代码示例: $http({ method:
Azure 存储帐户 - 跟踪 SAS 消耗
我已经搜索了几个小时但没有成功，是否可以跟踪 Blob 容器上 SAS 凭据的消耗情况？我将向几个客户提供 SAS 凭证，并且我希望能够跟踪他们的 SAS 使用情况(操作次数、带宽使用情况...)
azure - Azure 中的意外 RAM 消耗
我创建了具有 1.75 GB RAM 的 B1 应用服务计划。我还创建了一个应用程序服务并向其部署了 docker 镜像。现在我停止了 docker 镜像，它的状态已停止，并且它是该应用程序服务计划中
azure - Hololens 项目 Azure 消耗
与我们的合作伙伴一起为我们的客户(一家售后汽车零部件零售商)开发一个项目，他们利用 AR 和 VR 做了很多很酷的事情。我们的想法是使用 Hololens 并尝试帮助我们的客户在其大型仓库中进行物流操
haskell - Haskell 和流融合不断增加 CPU 消耗
这是一个简短的 Haskell 程序，可以生成 440 Hz 的声音。它使用pulseaudio作为音频后端。 import GHC.Float import Control.Arrow import
java - Vaadin 消耗 REST 和性能
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 8 年前。 Improve this ques
JAVAFX tab onCloseRequest 消耗 tabPane
tab.setOnCloseRequest(e -> { if (getEditorForTextArea(getSelectedTextArea()) != null

首页

博学

6Ren·AI

商城

node.js - 从内存消耗低的流中提取二进制值