gpt4 book ai didi

hadoop - 适用于各种属性的最佳技术堆栈

转载 作者:行者123 更新时间:2023-12-02 21:55:09 25 4
gpt4 key购买 nike

我们正在开发一个平台,该平台可对整个图上的实体流进行建模。系统必须回答以下问题:在图的给定节点上有多少个具有这些属性的实体,节点上的流入量,节点上的流出量等。流数据以流的形式馈送到系统。我们正在考虑在时间段(例如5分钟)内中断流数据,并针对不同的属性预先计算各种聚合,并将聚合存储在DynamoDB中以提供查询。

关于这一点,我们正在评估以下选项:

  • EMR:将流数据放入AWS -S3 / DynamoDB中,运行Map Reduce / hive作业
  • 将最新数据放入AWS- RDS中,通过sql计算聚合
  • Akka:这是一个通过Actors构建分布式应用程序的框架
    和消息传递。

    如果有人从事过类似的用例或使用了以上任何一种技术,请让我知道哪种方法最适合我们的用例。
  • 最佳答案

    我已经使用EMR在S3中处理数据了。最好的部分是您可以启动各种大小的Hadoop集群,以适应工作负载。

    您可能需要研究Storm进行流处理

    我也在这里收集大数据工具列表:http://hadoopilluminated.com/hadoop_book/Bigdata_Ecosystem.html

    关于hadoop - 适用于各种属性的最佳技术堆栈,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15386628/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com