gpt4 book ai didi

java - HashMap 的格式错误的二进制序列化

转载 作者:行者123 更新时间:2023-12-02 05:47:15 27 4
gpt4 key购买 nike

我编写了一些代码来通过迭代条目并序列化每个条目来序列化 HashMap<String,Double> ,而不是使用 ObjectOutputStream.readObject() 。原因只是效率:生成的文件要小得多,并且写入和读取速度要快得多(例如,0.6 秒内 23 MB,而 9.9 秒内 29 MB)。

这就是我序列化的方法:

ObjectOutputStream oos = new ObjectOutputStream(new FileOutputStream("test.bin"));
oos.writeInt(map.size()); // write size of the map
for (Map.Entry<String, Double> entry : map.entrySet()) { // iterate entries
System.out.println("writing ("+ entry.getKey() +","+ entry.getValue() +")");
byte[] bytes = entry.getKey().getBytes();
oos.writeInt(bytes.length); // length of key string
oos.write(bytes); // key string bytes
oos.writeDouble(entry.getValue()); // value
}
oos.close();

如您所见,我获取每个键 byteString 数组,序列化其长度,然后序列化数组本身。这就是我反序列化所做的:

ObjectInputStream ois = new ObjectInputStream(new FileInputStream("test.bin"));
int size = ois.readInt(); // read size of the map
HashMap<String, Double> newMap = new HashMap<>(size);
for (int i = 0; i < size; i++) { // iterate entries
int length = ois.readInt(); // length of key string
byte[] bytes = new byte[length];
ois.read(bytes); // key string bytes
String key = new String(bytes);
double value = ois.readDouble(); // value
newMap.put(key, value);
System.out.println("read ("+ key +","+ value +")");
}

问题是在某些时候 key 未正确序列化。我一直在调试,可以看到 ois.read(bytes) 读取了 8 个字节,而不是预期的 16 个字节,因此 key String 的格式不正确,并且 double 值是使用 key 中的最后 8 个字节读取的还没读。最后,异常无处不在。

使用下面的示例数据,在某个时刻的输出将如下所示:

read (2010-00-056.html,12154.250518054876)
read (2010-00- ,1.4007397428546247E-76)
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at ti.Test.main(Test.java:82)

问题可以在序列化文件中看到(它应该读取 2010-00-008.html ):

enter image description here

String 键之间添加两个字节。有关此内容的更多信息,请参阅 MxyL's answer。所以这一切都归结为:为什么添加这两个字节,为什么 readFully 工作正常?

为什么 String 没有正确(反)序列化?可能是某种固定 block 大小的填充或类似的东西? 在寻求效率时是否有更好的方法来手动序列化 String 我期待某种 writeStringreadString ,但似乎 Java 的 ObjectStream 中没有这样的东西。

我一直在尝试使用缓冲流,以防万一出现问题,明确说明要写入和读取多少字节,使用不同的编码,但没有运气。

这是重现问题的一些示例数据:

HashMap<String, Double> map = new HashMap<String, Double>();
map.put("2010-00-027.html",21732.994621513037); map.put("2010-00-020.html",3466.5169348296736); map.put("2010-00-051.html",12528.648992702407); map.put("2010-00-062.html",3354.8950010256385);
map.put("2010-00-024.html",10295.095511718278); map.put("2010-00-052.html",5381.513344679818); map.put("2010-00-007.html",16466.33813960735); map.put("2010-00-017.html",9484.969198176652);
map.put("2010-00-054.html",15423.873112634772); map.put("2010-00-022.html",8123.842752870753); map.put("2010-00-033.html",21238.496665104063); map.put("2010-00-028.html",7578.792651786424);
map.put("2010-00-048.html",3566.4118233046393); map.put("2010-00-040.html",2681.0799941861724); map.put("2010-00-049.html",14308.090890746222); map.put("2010-00-058.html",5911.342406606804);
map.put("2010-00-045.html",2284.118716145881); map.put("2010-00-031.html",2859.565771680721); map.put("2010-00-046.html",4555.187022907964); map.put("2010-00-036.html",8479.709295569426);
map.put("2010-00-061.html",846.8292195815125); map.put("2010-00-023.html",14108.644025417952); map.put("2010-00-041.html",22686.232732684934); map.put("2010-00-025.html",9513.539663409734);
map.put("2010-00-012.html",459.6427911376829); map.put("2010-00-005.html",0.0); map.put("2010-00-013.html",2646.403220496738); map.put("2010-00-065.html",5808.86423609936);
map.put("2010-00-056.html",12154.250518054876); map.put("2010-00-008.html",10811.15198506469); map.put("2010-00-042.html",9271.006516004005); map.put("2010-00-000.html",4387.4162586468965);
map.put("2010-00-059.html",4456.211623469774); map.put("2010-00-055.html",3534.7511584735325); map.put("2010-00-057.html",8745.640098512009); map.put("2010-00-032.html",4993.295735075575);
map.put("2010-00-021.html",3852.5805998017922); map.put("2010-00-043.html",4108.020033536286); map.put("2010-00-053.html",2.2446400279239946); map.put("2010-00-030.html",17853.541210836203);

最佳答案

ois.read(bytes); // key string bytes

将其更改为使用 readFully()。您假设读取已填满缓冲区。它没有义务传输超过一个字节。

Is there a better way to manually serialize a String when looking for efficiency?

有 writeUTF() 和 readUTF() 对。

您应该注意,通过调用 getBytes(),您将引入平台依赖性。您应该在此处和重建字符串时指定字符集。

关于java - HashMap<String,Double> 的格式错误的二进制序列化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23944422/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com