gpt4 book ai didi

java - Base64数据流解码

转载 作者:可可西里 更新时间:2023-11-01 14:21:47 24 4
gpt4 key购买 nike

我有一些大的 base64 编码数据(存储在 hadoop 文件系统中的 snappy 文件中)。此数据最初是 gzip 文本数据。我需要能够读取此编码数据的 block ,对其进行解码,然后将其刷新到 GZIPOutputStream。

关于如何执行此操作而不是将整个 base64 数据加载到数组中并调用 Base64.decodeBase64(byte[]) 有什么想法吗?

如果我读取字符直到 '\r\n' 分隔符并逐行解码,我是否正确?例如:

for (int i = 0; i < byteData.length; i++) {
if (byteData[i] == CARRIAGE_RETURN || byteData[i] == NEWLINE) {
if (i < byteData.length - 1 && byteData[i + 1] == NEWLINE)
i += 2;
else
i += 1;

byteBuffer.put(Base64.decodeBase64(record));

byteCounter = 0;
record = new byte[8192];
} else {
record[byteCounter++] = byteData[i];
}
}

遗憾的是,这种方法没有提供任何人类可读的输出。理想情况下,我想流式读取、解码和流式传输数据。

现在,我正在尝试输入一个输入流,然后复制到一个 gzipout

byteBuffer.get(bufferBytes);

InputStream inputStream = new ByteArrayInputStream(bufferBytes);
inputStream = new GZIPInputStream(inputStream);
IOUtils.copy(inputStream , gzipOutputStream);

它给了我一个java.io.IOException:损坏的 GZIP 预告片

最佳答案

让我们一步步来:

  1. 您需要 GZIPInputStream 来读取压缩数据(而不是 GZIPOutputStream;输出流用于压缩数据)。有了这个流,您将能够读取未压缩的原始二进制数据。这需要在构造函数中使用 InputStream

  2. 您需要一个能够读取 Base64 编码数据的输入流。我建议方便 Base64InputStream来自 apache-commons-codec .使用构造函数,您可以设置行长度、行分隔符并设置 doEncode=false 以解码数据。这反过来又需要另一个输入流 - 原始的 Base64 编码数据。

  3. 此流取决于您获取数据的方式;理想情况下,数据应作为 InputStream 提供 - 问题已解决。如果不是,您可能必须使用 ByteArrayInputStream(如果是二进制)、StringBufferInputStream(如果是字符串)等。

大致这个逻辑是:

InputStream fromHadoop = ...;                                  // 3rd paragraph
Base64InputStream b64is = // 2nd paragraph
new Base64InputStream(fromHadoop, false, 80, "\n".getBytes("UTF-8"));
GZIPInputStream zis = new GZIPInputStream(b64is); // 1st paragraph

请注意 Base64InputStream 的参数(行长度和行尾字节数组),您可能需要调整它们。

关于java - Base64数据流解码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19980307/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com