gpt4 book ai didi

mysql - 存储包含200万条日志数据的大型CSV文件

转载 作者:行者123 更新时间:2023-11-29 10:56:36 25 4
gpt4 key购买 nike

我有一个非常大的 CSV 文件,其中包含每天每个客户的 200 万条日志数据,我们必须开发分析工具,以提供 CSV 文件数据的各种分组的摘要。

我们使用Mysql-InnoDB进行开发,但是运行速度非常慢。我们在表上应用了适当的索引,硬件也很好。

Mysql是否能够胜任这次的分析工具,还是需要检查其他数据库?

每个 SQL Select 查询包含 15-20 秒的时间来从单个表中获取输出。

最佳答案

我假设您的数据是仅插入的,并且您主要希望构建向客户显示一些指标的仪表板。

您可以用不同的方式解决这个问题。您可以首先使用 Spark 或 Spring Batch 或 AirFlow 处理 CSV,具体取决于语言选项,而不是直接将 CSV 数据存储在 SQL 数据库中。这样做可以减少必须存储的数据量。

您可以考虑的另一种方法是处理 CSV 并将其推送到 BigQuery 或 Redshift 等。这些数据库旨在处理和查询大数据。

为了加快查询速度,您还可以创建物化 View 来快速构建仪表板。但我不推荐这样做,因为它不是一个非常可扩展的方法。

我建议您首先处理数据并生成所需的指标,并将它们存储在 SQL 中,并在它们之上构建仪表板,而不是直接保存它们。

关于mysql - 存储包含200万条日志数据的大型CSV文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42943134/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com