作者热门文章
- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我要验证结果
http://improve.dk/pushing-the-limits-of-amazon-s3-upload-performance/
但使用 Spark 。因此,大大增加分区数量会导致相同或更差的上传速度。甚至不接近作者的 1 GB/秒。当然,我的实例是 M1.xlarge,没有针对网络进行优化,但它的额定速度仍然为 1Gb/秒。而且,出于这个目的,我只是想验证分区 RDD 和每个分区的并行保存的好处。
我的预感是并发连接数的限制,文章称 Windows 服务器为 2。我使用的是 Amazon linux,默认情况下我看到类似 20 个并发连接的数字。如果那是真的,我应该会看到吞吐量随着我使用的实验参数而增加。有没有办法验证这个数字。或者,如果它很低,我将如何增加它?
最佳答案
好的,Spark - S3 接口(interface)显然存在严重问题。我使用 aws 客户端和线程重复了实验,就像文章中描述的那样,随着线程数的增加,性能得到了明显的提升,速度提升高达 10 倍。
关于linux - 使用 spark 的 s3 上传性能不佳,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35517493/
我是一名优秀的程序员,十分优秀!