gpt4 book ai didi

database - NxN 数据聚合的数据存储设计

转载 作者:太空狗 更新时间:2023-10-30 01:51:52 27 4
gpt4 key购买 nike

我正在尝试为数据聚合和存储的 NxN 问题提出一个理论解决方案。例如,我有大量数据通过流传入。流以点为单位发送数据。每个点有 5 个维度:

  1. Location
  2. Date
  3. Time
  4. Name
  5. Statistics

然后需要聚合和存储此数据,以允许另一个用户来查询位置和时间数据。用户应该能够像下面这样查询(伪代码):

Show me aggregated statistics for Location 1,2,3,4,....N between Dates 01/01/2011 and 01/03/2011 between times 11am and 4pm

不幸的是,由于数据的规模,不可能从动态点聚合所有这些数据,因此需要在此之前进行聚合。正如您所见,尽管可以在多个维度上聚合数据。

他们可以查询任意天数或地点,因此找到所有组合需要大量的预聚合:

  • Record for Locations 1 Today
  • Record for Locations 1,2 Today
  • Record for Locations 1,3 Today
  • Record for Locations 1,2,3 Today
  • etc... up to N

在查询之前对所有这些组合进行预处理可能会导致不可行的处理量。如果我们有 200 个不同的位置,那么我们就有 2^200 种组合,这几乎不可能在任何合理的时间内预先计算。

我确实考虑过在一维上创建记录,然后在请求时可以即时进行合并,但这也需要大量时间。

问题:

  1. 鉴于用户很可能会查询所有维度,我应该如何选择正确的维度和/或维度组合?
  2. 有没有我可以引用的案例研究、我可以阅读的书籍或您能想到的任何其他有用的东西?

感谢您的宝贵时间。

编辑 1

当我说将数据聚合在一起时,我的意思是将其他维度的统计信息和名称(维度 4 和 5)结合起来。因此,例如,如果我请求位置 1、2、3、4..N 的数据,那么在将其提供给用户之前,我必须将这 N 个位置的统计信息和名称计数合并在一起。

同样,如果我请求日期为 01/01/2015 - 01/12/2015 的数据,那么我必须汇总这些时间段之间的所有数据(通过添加求和名称/统计数据)。

最后,如果我要求在日期 01/01/2015 - 01/12/2015 之间获取位置 1、2、3、4..N 的数据,那么我必须汇总这些日期之间所有这些位置的所有数据。

为了这个例子,我们假设处理统计数据需要某种嵌套循环,并且不能很好地扩展,尤其是在运行中。

最佳答案

尝试时间序列数据库!

从您的描述来看,您的数据似乎是一个时间序列数据集。用户在查询时似乎最关心时间,选择时间范围后,用户会通过附加条件细化结果。

考虑到这一点,我建议您尝试使用时间序列数据库,例如InfluxDBOpenTSD .例如,Influx 提供了一种能够处理如下查询的查询语言,这与您要实现的目标非常接近:

SELECT count(location) FROM events
WHERE time > '2013-08-12 22:32:01.232' AND time < '2013-08-13'
GROUP BY time(10m);

我不确定您所说的scale 是什么意思,但是时间序列数据库被设计为可以快速处理大量数据点。我建议在推出您自己的解决方案之前一定要试一试!

关于database - NxN 数据聚合的数据存储设计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32773055/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com