gpt4 book ai didi

java - 在 S3 中上传输入流 block 后无法解压缩 gzip 压缩文件

转载 作者:行者123 更新时间:2023-12-02 10:19:12 26 4
gpt4 key购买 nike

我想采用与分段 uploader 类似的方式获取输入流并将 gzip 压缩的部分上传到 s3。但是,我想将各个文件部分存储在 S3 中,而不是将这些部分转换为单个文件。

为此,我创建了以下方法。但是,当我尝试 gzip 解压缩每个部分时,gzip 会抛出错误并显示:gzip: file_part_2.log.gz: not in gzip format

我不确定我是否正确压缩了每个部分?

如果我重新初始化gzipoutputstream:gzip = new GZIPOutputStream(baos);并在重置字节数组输出流后设置gzip.finish() baos.reset(); 然后我就可以解压缩每个部分。不知道为什么我需要这样做,gzipoutputstream 有类似的 reset 吗?

public void upload(String bucket, String key, InputStream is, int partSize) throws Exception
{
String row;
BufferedReader br = new BufferedReader(new InputStreamReader(is, ENCODING));
ByteArrayOutputStream baos = new ByteArrayOutputStream();
GZIPOutputStream gzip = new GZIPOutputStream(baos);

int partCounter = 0;
int lineCounter = 0;
while ((row = br.readLine()) != null) {
if (baos.size() >= partSize) {
partCounter = this.uploadChunk(bucket, key, baos, partCounter);

baos.reset();
}else if(!row.equals("")){
row += '\n';
gzip.write(row.getBytes(ENCODING));
lineCounter++;
}
}

gzip.finish();
br.close();
baos.close();

if(lineCounter == 0){
throw new Exception("Aborting upload, file contents is empty!");
}

//Final chunk
if (baos.size() > 0) {
this.uploadChunk(bucket, key, baos, partCounter);
}
}

private int uploadChunk(String bucket, String key, ByteArrayOutputStream baos, int partCounter)
{
ObjectMetadata metaData = new ObjectMetadata();
metaData.setContentLength(baos.size());

String[] path = key.split("/");
String[] filename = path[path.length-1].split("\\.");

filename[0] = filename[0]+"_part_"+partCounter;

path[path.length-1] = String.join(".", filename);

amazonS3.putObject(
bucket,
String.join("/", path),
new ByteArrayInputStream(baos.toByteArray()),
metaData
);

log.info("Upload chunk {}, size: {}", partCounter, baos.size());

return partCounter+1;
}

最佳答案

问题是您对所有 block 使用单个GZipOutputStream。因此,您实际上正在编写 GZipped 文件的各个部分,必须重新组合这些文件才能发挥作用。

对现有代码进行最小的更改:

if (baos.size() >= partSize) {
gzip.close();
partCounter = this.uploadChunk(bucket, key, baos, partCounter);
baos = baos = new ByteArrayOutputStream();
gzip = new GZIPOutputStream(baos);
}

您需要在循环结束时执行相同的操作。另外,如果行计数器为 0,您不应该抛出异常:文件完全有可能被精确地分成一定数量的 block 。

为了改进代码,我会将 GZIPOutputStream 包装在 OutputStreamWriterBufferedWriter 中,这样您就不需要这样做明确的字符串字节转换。

最后,不要使用ByteArrayOutputStream.reset()。与仅仅创建一个新流相比,它不会为您节省任何东西,并且如果您忘记重置,则可能会出现错误。

关于java - 在 S3 中上传输入流 block 后无法解压缩 gzip 压缩文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54459923/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com