gpt4 book ai didi

java - 从流中安全解析字节数组的最佳分隔符

转载 作者:塔克拉玛干 更新时间:2023-11-01 21:54:36 25 4
gpt4 key购买 nike

我有一个返回字节数组序列的字节流,每个字节数组代表一条记录。

我想将流解析为单个 byte[] 的列表。目前,我已经破解了一个三字节定界符,以便我可以识别每条记录的结尾,但我有顾虑。

我看到有一个标准的 Ascii 记录分隔符。

30  036 1E  00011110    RS        Record Separator

如果字节数组(UTF-8 编码)已被压缩和/或加密,使用从该字符派生的 byte[] 作为定界符是否安全?我担心的是加密/压缩输出可能会产生用于其他目的的记录分隔符。请注意单独的 byte[] 记录被压缩/加密,而不是整个流。

我正在使用 Java 8 并使用 Snappy 进行压缩。我还没有选择加密库,但它肯定是更强大、标准的私钥方法之一。

最佳答案

如果您正在处理随机非结构化数据(压缩/加密数据非常相似),则不能简单地将字节声明为分隔符,因为分隔符在此类数据中始终可以显示为常规数据字节。

如果在开始写的时候就已经知道数据的大小,一般先写大小再写数据即可。回读时,您知道您需要先读取大小(例如,对于 int 为 4 个字节),然后是大小指示的字节数。

如果您在书写时分不清大小,这显然行不通。在这种情况下,您可以使用转义机制,例如选择一个很少出现的字节作为转义字符,转义该字节在数据中的所有出现,并使用不同的字节作为结束指示符。

例如

final static byte ESCAPE = (byte) 0xBC;
final static byte EOF = (byte) 0x00;

OutputStream out = ...
for (byte b : source) {
if (b == ESCAPE) {
// escape data bytes that have the value of ESCAPE
out.write(ESCAPE);
out.write(ESCAPE);
} else {
out.write(b);
}
}
// write EOF marker ESCAPE, EOF
out.write(ESCAPE);
out.write(EOF);

现在,当您读取 ESCAPE 字节时,您读取下一个字节并检查 EOF。如果它不是 EOF,则它是代表数据字节的转义 ESCAPE。

InputStream in = ...
ByteArrayOutputStream buffer = new ByteArrayOutputStream();
while ((int b = in.read()) != -1) {
if (b == ESCAPE) {
b = in.read();
if (b == EOF)
break;
buffer.write(b);
} else {
buffer.write(b);
}
}

如果要写入的字节是完全随机分布的,这将使流长度增加 1/256,对于不完全随机的数据域,您可以选择出现频率最低的字节(通过静态数据分析或仅有根据的猜测)。

编辑:您可以通过使用更精细的逻辑来减少转义开销,例如该示例只能创建 ESCAPE + ESCAPE 或 ESCAPE + EOF。示例中的其他 254 个字节永远不能跟在 ESCAPE 之后,因此可以利用它来存储合法的数据组合。

关于java - 从流中安全解析字节数组的最佳分隔符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32014746/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com