gpt4 book ai didi

mongodb - 社交网络 : Hadoop, HBase、Spark over MongoDB 还是 Postgres?

转载 作者:IT老高 更新时间:2023-10-28 13:20:31 24 4
gpt4 key购买 nike

我正在构建一个社交网络,其中包含各种功能,其中许多功能由大数据密集型工作负载(例如机器学习)提供支持。例如:推荐系统、搜索引擎和时序序列匹配器。

鉴于我目前有 5 个用户——但预计会有显着增长——我应该使用哪些指标来决定:

  • Spark(带/不带 HBase over Hadoop)
  • MongoDB 或 Postgres

将 Postgres 视为一种减少它和 Spark 之间移植压力的方法(使用适用于两者的 SQL 抽象层)。 Spark 看起来很有趣,可以想像各种 ML、SQL 和 Graph 问题它都可以快速回答。 MongoDB 是我通常使用的,但我发现它的缩放和 map-reduce 功能非常有限。

最佳答案

我认为您搜索软件堆栈/架构的方向是正确的:

  • 处理不同类型的负载:批处理、实时计算等。
  • 随着业务增长而扩大规模和速度
  • 成为维护良好且受支持的实时软件堆栈
  • 为特定领域的计算(例如机器学习等)提供通用库支持。

就这些优点而言,Hadoop + Spark 可以为您提供所需的优势。 Hadoop 目前相对成熟,可以批量处理大规模数据。它支持可靠且可扩展的存储(HDFS)和计算(Mapreduce/Yarn)。通过添加 Spark,您可以利用 Spark 添加的存储 (HDFS) 和实时计算(性能)。

在开发方面,Java/Scala 原生支持这两个系统。在 stackoverflow 和其他任何地方,库支持和性能调整都很丰富。至少有一些机器学习库(Mahout、Mlib)与 hadoop、spark 一起使用。

对于部署,AWS 和其他云提供商可以为 hadoop/spark 提供主机解决方案。那里也不是问题。

关于mongodb - 社交网络 : Hadoop, HBase、Spark over MongoDB 还是 Postgres?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27730628/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com