gpt4 book ai didi

amazon-web-services - s3 桶的默认 block 大小是多少

转载 作者:行者123 更新时间:2023-12-05 07:49:16 24 4
gpt4 key购买 nike

我正在用 s3 编写 Parquet 文件。我必须知道 s3 block 大小,以便我可以相应地按行组大小进行设置。作为 1 行组大小 = 默认 s3 block 大小。 (parquet 中的默认行组大小为 128MB,但是如果尝试从行组元中获取行偏移量,那么我得到每个行组消耗大约 116MB。为什么会这样?

例如:148.7 MB 文件组成 2 行组

row group 1:     RC:2870100 TS:429678457 OFFSET:4 
row group 2: RC:759588 TS:108434365 OFFSET:123729384

每个行组消耗大约 116MB 数据。

最佳答案

如前所述,文件大小并不受 S3 的固有限制。

虽然您没有提到您如何写入 S3,但您的写入方式很可能是这里的嫌疑人。

一个简单的示例是,如果您使用 Spark 编写并并行执行此操作。

虽然我没有测试过 spark 是否会自动并行化写入,但无论您使用哪个应用程序编写,一个简单的第一步就是将并行度设置为 1。


有两件事可以帮助验证这是正确的解决方案:

  1. 使用不进行并行处理甚至手动处理的不同工具将文件上传到 S3
  2. 将应用程序写入非 S3 的其他位置。

关于amazon-web-services - s3 桶的默认 block 大小是多少,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37542984/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com