gpt4 book ai didi

node.js - 在不知道其编码的情况下逐行读取流

转载 作者:搜寻专家 更新时间:2023-11-01 00:26:26 28 4
gpt4 key购买 nike

我有一种情况需要逐行处理流中的一些数据。问题是数据的编码是事先不知道的;它可能是 UTF-8 或任何传统的单字节编码(例如 Latin1ISO-8859-5 等)。它不是 UTF16 或像 EBCDIC 这样的异类,所以我可以合理地期望 \n 是明确的,所以理论上我可以把它分成几行。在某些时候,当我遇到一个空行时,我需要将流的其余部分提供给其他地方(不将其拆分为行,但仍然没有任何重新编码);考虑后跟不透明主体的 HTTP 样式 header 。

这是我得到的:

function processStream(stream) {
var buffer = '';

function splitLines(data) {
buffer += data;
var lf = buffer.indexOf('\n');
while (lf >= 0) {
var line = buffer.substr(0, lf - 1);
buffer = buffer.substr(lf + 1);
this.emit('line', line);
lf = buffer.indexOf('\n');
}
}

function processHeader(line) {
if (line.length) {
// do something with the line
} else {
// end of headers, stop splitting lines and start processing the body
this
.removeListener('data', splitLines)
.removeAllListeners('line')
.on('data', processBody);
if (buffer.length) {
// process leftover buffer as part of the body
processBody(buffer);
buffer = '';
}
}
}

function processBody(data) {
// do something with the body chunks
}

stream.setEncoding('binary');
stream
.on('data', splitLines)
.on('line', processHeader);
}

它完成了工作,但问题是 binary 编码已被弃用,将来可能会消失,让我没有那个选择。所有其他 Buffer 编码要么破坏数据,要么在(最有可能的时候)它与编码不匹配时完全解码。使用 Uint8Array 将意味着缓慢且不方便的 Javascript 循环遍历数据只是为了找到换行符。

关于如何在不使用 binary 编码的情况下保持编码不可知的同时将流拆分成行的任何建议?

最佳答案

免责声明:我不是 Javascript 开发人员。

At some point, when I encounter an empty line, I will need to feed the rest of the stream somewhere else (without splitting it into lines, but still without any reencoding)

没错。在那种情况下,听起来您真的根本不想将数据视为文本。像对待任何二进制数据一样对待它,并将其拆分为字节 0x0A。 (请注意,如果它最初来自 Windows,您可能还想删除任何尾随的 0x0D 值。)

我知道它确实是文本,但没有任何编码信息,对数据强加任何类型的解释都是危险的。

所以你应该保留两个状态:

  • 字节数组列表
  • 当前缓冲区

当您接收数据时,您在逻辑上希望创建一个新数组,当前缓冲区位于新数据之前。 (为了提高效率,您可能不想实际创建这样一个数组,但我会从一开始就这样做,直到您让它工作为止。)查找任何 0x0A 字节,并相应地拆分数组(创建一个新的字节数组作为现有数组的“切片”,并将该切片添加到列表中)。新的“当前缓冲区”将是您在最后的 0x0A 之后留下的任何数据。

如果您连续看到两个 0x0A 值,那么您将进入第二种模式,即复制数据。

这一切都是假设 Javascript/Node 组合允许您将二进制数据作为二进制数据进行操作,但如果没有,我会感到震惊。重要的一点是不要在任何时候将其解释为文本。

关于node.js - 在不知道其编码的情况下逐行读取流,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12822459/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com