gpt4 book ai didi

google-cloud-platform - Google Cloud Bigtable 压缩

转载 作者:行者123 更新时间:2023-12-01 07:58:22 24 4
gpt4 key购买 nike

我正在研究 BigTable 如何压缩我的数据。

我已将 1.5GB 加载到 1 个表中;大约 500k 行包含 1 列,平均每个单元格包含大约 3kb。在进一步的测试中,更多的列将添加到包含相似大小的相似数据的这些行中。

每个单元格中的数据当前是一个 JSON 序列化字典数组 [平均 10 个元素],例如:

[{
"field1": "100.10",
"field2": "EUR",
"field3": "10000",
"field4": "0",
"field5": "1",
"field6": "1",
"field7": "0",
"field8": "100",
"field9": "110.20",
"field10": "100-char field",
"dateField1": "1970-01-01",
"dateField2": "1970-01-01",
"dateTimeField": "1970-01-01T10:10:10Z"
},{
"field1": "200.20",
"field2": "EUR",
"field3": "10001",
"field4": "0",
"field5": "1",
"field6": "0",
"field7": "0",
"field8": "100",
"field9": "220.30",
"field10": "100-char field",
"dateField1": "1970-01-01",
"dateField2": "1970-01-01",
"dateTimeField": "1970-01-01T20:20:20Z"
}, ...]

BigTable 控制台向我显示该集群拥有 1.2GB 的空间。因此,它将我插入的 1.5GB 压缩到原始大小的大约 80%。然而,对存储在单元格中的典型字符串进行 Gzip 压缩后,压缩率约为 20%。

鉴于我插入的数据包含大量重复值(例如字典键),因此 BigTable 的压缩性能对我来说似乎很低。我知道 BigTable 通过压缩来换取速度,但我希望它能够更好地处理我的数据。

对于上述数据来说,80% 的压缩率是否可以,还是可以预期更低的值?除了重新构建我上传的数据之外,还有什么技术可以改进压缩吗?

谢谢!

最佳答案

肯定会出现较低的值。我们发现并修复了与 Cloud Bigtable 中使用压缩相关的错误,该错误现已投入生产。

对于您发布的示例等数据,您现在应该会看到更高的压缩率和更低的磁盘使用率!

关于google-cloud-platform - Google Cloud Bigtable 压缩,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30805702/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com