gpt4 book ai didi

mysql - 适合在 100 TB 数据上进行机器学习的数据库

转载 作者:可可西里 更新时间:2023-11-01 08:33:58 29 4
gpt4 key购买 nike

我需要对大约 100tb 的网络数据进行分类和聚类,我计划使用 Hadoop、Mahout 和 AWS。你推荐我使用什么数据库来存储数据? MySQL 会工作还是像 MongoDB 这样的东西会明显更快?一个数据库或另一个数据库还有其他优势吗?谢谢。

最佳答案

最简单和最直接的答案是将文件直接放在 HDFS 或 S3 中(因为您提到了 AWS)并直接将 Hadoop/Mahout 指向它们。其他数据库有不同的用途,但 Hadoop/HDFS 正是为这种大容量、批处理式分析而设计的。如果你想要一个更像数据库风格的访问层,那么你可以毫不费力地添加 Hive。底层存储层仍然是 HDFS 或 S3,但 Hive 可以让您对存储在那里的数据进行类似 SQL 的访问,如果您需要的话。

只是为了解决您提出的其他两个选项:MongoDB 非常适合低延迟读写,但您可能不需要它。我不了解 MySQL 的所有高级功能,但我猜 100TB 将很难处理,尤其是当您开始进行访问所有数据的大型查询时。它更适合传统的事务性访问。

关于mysql - 适合在 100 TB 数据上进行机器学习的数据库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18744826/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com