gpt4 book ai didi

mysql - Hadoop for MySQL 用例

转载 作者:可可西里 更新时间:2023-11-01 16:38:23 26 4
gpt4 key购买 nike

我有一个数据库,其中包含 5 年来约 400 万条美国股票、共同基金和 ETF 价格的记录,并且我每天都在添加每种证券的每日价格。

对于我正在处理的一项功能,我需要获取每只证券的最新价格(分组最大值)并使用其他财务指标进行一些计算。证券数量约为 40K。

但具有这种数据量的分组最大值很重,需要几分钟才能执行。

当然我的表使用索引,但任务涉及获取和实时处理近 7GB 的数据。

所以我很感兴趣,这个任务是针对大数据工具和算法还是小数据量?因为在示例中我注意到他们正在处理成千上万 GB 的数据。

我的数据库是MySQL,想用Hadoop来处理数据。这是好的做法还是我只需要使用 MySQL 优化(我的数据小吗?)或者如果在那么大的数据中使用 Hadoop 是错误的,对于这种情况你有什么建议?

注意我每天增加的项目涉及很多分析,需要根据用户请求实时完成。

注意 不知道这个问题是否可以在 stackoverflow 中提出,所以如果问题离题请见谅。

提前致谢!

最佳答案

在 Hadoop 术语中,您的数据肯定很小。最新的计算机有 16+ GB 的 RAM,因此您的数据集可以完全放入一台机器的内存中。

但是,这并不意味着您至少可以尝试将数据加载到 HDFS 中并对其执行一些操作。 Sqoop & Hive 将是您用来加载和进行 SQL 处理的工具。

虽然我提出了关于内存的观点,但您完全可以不需要 Hadoop(HDFS 和 YARN),而是可以使用 Apache Spark w/ SparkSQL直接从分布式 JDBC 连接访问 MySQL。

关于mysql - Hadoop for MySQL 用例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46915388/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com