gpt4 book ai didi

mysql - Cassandra + Spark 与 MySQL + Spark

转载 作者:行者123 更新时间:2023-11-29 22:47:36 25 4
gpt4 key购买 nike

我必须在三层架构上设计一个软件:

  • 定期轮询数据源(例如 ftp)以注入(inject)数据库的进程
  • 数据库
  • 用于数据处理的 Spark

我的数据很简单,非常适合存储在单个 RDMS 表中,或者我可以将其存储在 Cassandra 中,然后定期需要 Spark 对整个数据集运行一些机器学习算法。

哪个数据库更适合我的用例?具体来说,我不需要在多个节点上进行扩展,我认为主要的根本问题是:

  • 在简单表上的 Cassandra 或 MySQL 上的简单查询 (SELECT) 更快吗?

  • Cassandra 的 Spark 连接器是否受益于它的某些功能,使其比 SQL 连接器更快?

最佳答案

如果数据大小小于2Tb,可以使用MySQL。在 MySQL 表上选择将比在 Cassandra 中更灵活。当您的数据存储需求跨单机时,您应该使用 Cassandra。 Cassandra 需要为每个查找或选择场景进行仔细的数据建模。

您可以使用下面建议的方法进行 MySQL Spark 集成

How to work with MySQL and Apache Spark?

关于mysql - Cassandra + Spark 与 MySQL + Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29027359/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com