gpt4 book ai didi

每天 2 亿次写入的数据库解决方案,每月汇总查询

转载 作者:搜寻专家 更新时间:2023-10-30 19:44:35 24 4
gpt4 key购买 nike

我正在寻求帮助来决定使用哪个数据库系统。 (过去几个小时我一直在谷歌搜索和阅读;现在似乎值得向有第一手知识的人寻求帮助。)

我需要每 8 小时工作日将大约 2 亿行(或更多)记录到数据库中,然后对这些数据执行每周/每月/每年的汇总查询。摘要查询将用于收集诸如账单之类的数据,例如。 “每个用户本月进行了多少笔 A 类交易?” (可能更复杂,但这是一般的想法)。

我可以根据需要将数据库分布在多台机器上,但我不认为我可以将旧数据脱机。我肯定需要能够查询一个月(也许一年)的数据。这些查询将供我自己使用,不需要为最终用户实时生成(如果需要,它们可以整夜运行)。

对于哪些数据库比较适合,有人有什么建议吗?

附言Cassandra 看起来处理写入没有问题,但是每月大量的表扫描呢?有人熟悉 Cassandra/Hadoop MapReduce 性能吗?

最佳答案

我目前正在处理一个非常相似的过程(一个网络域爬行数据库),具有相同的显着交易率。

在这些摄取速率下,首先正确设置存储层至关重要。您将看到几台机器连接到 SAN 集群中的存储。单个数据库服务器每天可以支持数百万次写入,这是每次“写入”使用的 CPU 数量和写入可以提交的速度。

(网络性能也常常是早期的瓶颈)

通过巧妙的分区,您可以减少汇总数据所需的工作量。您没有说摘要需要更新到什么程度,这很关键。我会尝试从“实时”推回并建议在一夜之间(或者如果你可以每月逃脱的话)汇总计算。

最后,我们使用 2 CPU 4GB RAM Windows 2003 虚拟 SQL Server 2005 和单 CPU 1GB RAM IIS Web 服务器作为我们的测试系统,我们可以在 10 小时内提取 2000 万条记录(存储是 RAID 5 在共享 SAN 上)。我们的摄取速率高达每秒 160 条记录,每次网络往返以 40 条记录为一组进行批处理。

关于每天 2 亿次写入的数据库解决方案,每月汇总查询,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2747701/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com