gpt4 book ai didi

java - GZIPInputStream 最后填充零?

转载 作者:塔克拉玛干 更新时间:2023-11-02 07:46:26 24 4
gpt4 key购买 nike

我在解压缩文件时遇到了一个奇怪的问题,我正在考虑为此使用字符集 UTF-8。我正在使用 Guava 库。

public static byte[] gzip(final CharSequence cs, final Charset charset) throws IOException {
final ByteArrayOutputStream os = new ByteArrayOutputStream(cs.length());
final GZIPOutputStream gzipOs = new GZIPOutputStream(os);
gzipOs.write(charset.encode(CharBuffer.wrap(cs)).array());
Closeables.closeQuietly(gzipOs);
return os.toByteArray();
}

public static boolean gzipToFile(final CharSequence from, final File to, final Charset charset) {
try {
Files.write(StreamUtils.gzip(from, charset), to);
return true;
} catch (final IOException e) {
// ignore
}
return false;
}

public static String gunzipFromFile(final File from, final Charset charset) {
String str = null;
try {
str = charset.decode(ByteBuffer.wrap(gunzip(Files.toByteArray(from)))).toString();
} catch (final IOException e) {
// ignore
}
return str;
}

public static byte[] gunzip(final byte[] b) throws IOException {
GZIPInputStream gzipIs = null;
final byte[] bytes;
try {
gzipIs = new GZIPInputStream(new ByteArrayInputStream(b));
bytes = ByteStreams.toByteArray(gzipIs);
} finally {
Closeables.closeQuietly(gzipIs);
}
return bytes;
}

这里是一个小的 JUnit。为了进行测试,我使用了英语、德语、俄语等不同语言的 lorem ipsum,我首先将原始文本压缩到文件中,然后解压缩文件并将其与原始文本进行比较:

@Test
public void gzip() throws IOException {
final String originalText = Files.toString(ORIGINAL_IPSUM_LOREM, Charsets.UTF_8);

// create temporary file
final File tmpFile = this.tmpFolder.newFile("loremIpsum.txt.gz");

// check if gzip write is OK
final boolean status = StreamUtils.gzipToFile(originalText, tmpFile, Charsets.UTF_8);
Assertions.assertThat(status).isTrue();
Assertions.assertThat(Files.toByteArray(tmpFile)).isEqualTo(Files.toByteArray(GZIPPED_IPSUM_LOREM));

// unzip it again
final String uncompressedString = StreamUtils.gunzipFromFile(tmpFile, Charsets.UTF_8);
Assertions.assertThat(uncompressedString).isEqualTo(originalText);
}

并且 JUnit 失败并显示以下内容: enter image description here

调试器显示 uncompressedText 和 orignalText 之间的区别:

[-17, -69, -65, 76, 111, ... (omitted) ... , -117, 32, -48, -66, -48, -76, -47, -128, 32, -48, -78, -48, -75, -47, -127, 46, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... (omitted) ... , 0, 0, 0, 0]

.. 并且原始文本没有尾部零:

[-17, -69, -65, 76, 111, ... (omitted) ... , -117, 32, -48, -66, -48, -76, -47, -128, 32, -48, -78, -48, -75, -47, -127, 46]

知道哪里出了问题吗???谢谢:-)

最佳答案

我认为问题出在这里:

    charset.encode(CharBuffer.wrap(cs)).array()

javadoc for array() 表示它返回 ByteBuffer 的后备数组。但是后备数组可能大于缓冲区的有效内容....我怀疑在这种情况下是这样。


FWIW ...我怀疑 Buffer 对象和 ByteArray 流对象的显式用户对性能有多大帮助。

我怀疑你最好这样做:

public static boolean gzipToFile(CharSequence from, File to, Charset charset) {
try (FileOutputStream fos = new FileOutputStream(to);
BufferedOutputStream bos = new BufferedOutputStream(fos);
GZIPOutputStream gzos = new GZIPOutputStream(bos);
OutputStreamWriter w = new OutputStreamWriter(gzos, charset)) {
w.append(from);
w.close();
return true;
} catch (final IOException e) {
// ignore
}
return false;
}

(相当于阅读。)

为什么?我怀疑中间 ByteArray 流的额外副本很可能会抵消您通过使用缓冲区获得的潜在加速。

此外,我的直觉是压缩/解压步骤将主导其他任何步骤。

关于java - GZIPInputStream 最后填充零?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25053255/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com