gpt4 book ai didi

hadoop - 估算并行计算的计算成本

转载 作者:行者123 更新时间:2023-12-02 20:10:01 26 4
gpt4 key购买 nike

我对并行计算世界很陌生。我的小组使用Amazon EC2和S3来管理所有数据,这确实为我打开了一个新世界。

我的问题是如何估算计算成本。假设我在Amazon S3上有n TB数据和k个文件(例如,我有0.5 TB数据和7000个zip文件),我想遍历所有文件,并使用Pig Latin对每一行执行一次正则表达式匹配操作文件。

我对估算这些费用非常感兴趣:

  • 我应该选择多少个实例来执行此任务?什么是
    实例的容量(主实例的大小和
    map-reduce实例)?我可以扣除这些能力和费用吗
    基于n和k以及每个操作成本?
  • 我设计了一个示例数据流:我使用了一个xlarge实例作为
    我的主节点和10个中等实例作为我的 map 归约组。
    这样够了吗?
  • 如何为每个实例最大化带宽以从S3提取数据?从我设计的数据流中,看起来S3的读取速度约为每分钟250,000,000字节。到底有多少数据传输到ec2实例?这会成为我工作流程的瓶颈吗?
  • 最佳答案

    1-恕我直言,这完全取决于您的需求。您需要根据要执行的计算强度来选择它。显然,您可以根据数据集和要对该数据执行的计算量来减少成本。

    2-对于多少数据?什么样的操作?延迟/吞吐量?对于POC和小型项目来说似乎足够好。

    3-实际上取决于几件事,例如-您是否与S3端点位于同一区域,在某个时间点击中的特定S3节点等。如果您使用EBS实例,可能会更好需要更快的数据访问,恕我直言。您可以将EBS卷挂载到EC2实例,并将经常需要的数据保留在其中。否则,一些简单的解决方案将在服务器之间使用10 Gb连接,或者使用专用(昂贵)实例。但是,没有人能保证数据传输是否会成为瓶颈。有时也许。

    我不知道这是否可以完全解决您的查询费用,但是他们的Monthly Calculator当然可以。

    关于hadoop - 估算并行计算的计算成本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17200018/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com