gpt4 book ai didi

node.js - 将流式缓冲区转换为 utf8 字符串

转载 作者:IT老高 更新时间:2023-10-28 21:45:55 26 4
gpt4 key购买 nike

我想使用 node.js 发出 HTTP 请求以从网络服务器加载一些文本。由于响应可以包含很多文本(一些兆字节),我想分别处理每个文本 block 。我可以使用以下代码实现这一点:

var req = http.request(reqOptions, function(res) {
...
res.setEncoding('utf8');
res.on('data', function(textChunk) {
// process utf8 text chunk
});
});

这似乎没有问题。但是我想支持 HTTP 压缩,所以我使用 zlib:

var zip = zlib.createUnzip();

// NO res.setEncoding('utf8') here since we need the raw bytes for zlib
res.on('data', function(chunk) {
// do something like checking the number of bytes downloaded
zip.write(chunk); // give the raw bytes to zlib, s.b.
});

zip.on('data', function(chunk) {
// convert chunk to utf8 text:
var textChunk = chunk.toString('utf8');

// process utf8 text chunk
});

对于像 '\u00c4' 这样的多字节字符,这可能是个问题。由两个字节组成:0xC30x84 .如果第一个字节被第一个 block ( Buffer )覆盖,第二个字节被第二个 block 覆盖,则 chunk.toString('utf8')将在文本 block 的结尾/开头产生不正确的字符。我怎样才能避免这种情况?

提示:我仍然需要缓冲区(更具体地说是缓冲区中的字节数)来限制下载的字节数。所以使用 res.setEncoding('utf8')就像上面第一个示例代码中的非压缩数据不适合我的需要。

最佳答案

单缓冲区

如果你有一个Buffer,你可以使用它的toString将所有或部分二进制内容转换为使用特定编码的字符串的方法。如果您不提供参数,则默认为 utf8,但我已在此示例中明确设置了编码。

var req = http.request(reqOptions, function(res) {
...

res.on('data', function(chunk) {
var textChunk = chunk.toString('utf8');
// process utf8 text chunk
});
});

流式缓冲区

如果您有像上述问题那样的流式缓冲区,其中多字节 UTF8 字符的第一个字节可能包含在第一个 Buffer ( block )中,并且第二个 Buffer 中的第二个字节,那么您应该使用 StringDecoder . :

var StringDecoder = require('string_decoder').StringDecoder;

var req = http.request(reqOptions, function(res) {
...
var decoder = new StringDecoder('utf8');

res.on('data', function(chunk) {
var textChunk = decoder.write(chunk);
// process utf8 text chunk
});
});

这样不完整字符的字节由StringDecoder缓冲,直到所有需要的字节都写入解码器。

关于node.js - 将流式缓冲区转换为 utf8 字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12121775/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com