gpt4 book ai didi

linux - 使用 spark 的 s3 上传性能不佳

转载 作者:塔克拉玛干 更新时间:2023-11-03 00:47:25 26 4
gpt4 key购买 nike

我要验证结果

http://improve.dk/pushing-the-limits-of-amazon-s3-upload-performance/

但使用 Spark 。因此,大大增加分区数量会导致相同或更差的上传速度。甚至不接近作者的 1 GB/秒。当然,我的实例是 M1.xlarge,没有针对网络进行优化,但它的额定速度仍然为 1Gb/秒。而且,出于这个目的,我只是想验证分区 RDD 和每个分区的并行保存的好处。

我的预感是并发连接数的限制,文章称 Windows 服务器为 2。我使用的是 Amazon linux,默认情况下我看到类似 20 个并发连接的数字。如果那是真的,我应该会看到吞吐量随着我使用的实验参数而增加。有没有办法验证这个数字。或者,如果它很低,我将如何增加它?

最佳答案

好的,Spark - S3 接口(interface)显然存在严重问题。我使用 aws 客户端和线程重复了实验,就像文章中描述的那样,随着线程数的增加,性能得到了明显的提升,速度提升高达 10 倍。

关于linux - 使用 spark 的 s3 上传性能不佳,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35517493/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com