- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在尝试为数据聚合和存储的 NxN 问题提出一个理论解决方案。例如,我有大量数据通过流传入。流以点为单位发送数据。每个点有 5 个维度:
- Location
- Date
- Time
- Name
- Statistics
然后需要聚合和存储此数据,以允许另一个用户来查询位置和时间数据。用户应该能够像下面这样查询(伪代码):
Show me aggregated statistics for Location 1,2,3,4,....N between Dates 01/01/2011 and 01/03/2011 between times 11am and 4pm
不幸的是,由于数据的规模,不可能从动态点聚合所有这些数据,因此需要在此之前进行聚合。正如您所见,尽管可以在多个维度上聚合数据。
他们可以查询任意天数或地点,因此找到所有组合需要大量的预聚合:
- Record for Locations 1 Today
- Record for Locations 1,2 Today
- Record for Locations 1,3 Today
- Record for Locations 1,2,3 Today
- etc... up to N
在查询之前对所有这些组合进行预处理可能会导致不可行的处理量。如果我们有 200 个不同的位置,那么我们就有 2^200 种组合,这几乎不可能在任何合理的时间内预先计算。
我确实考虑过在一维上创建记录,然后在请求时可以即时进行合并,但这也需要大量时间。
问题:
感谢您的宝贵时间。
编辑 1
当我说将数据聚合在一起时,我的意思是将其他维度的统计信息和名称(维度 4 和 5)结合起来。因此,例如,如果我请求位置 1、2、3、4..N 的数据,那么在将其提供给用户之前,我必须将这 N 个位置的统计信息和名称计数合并在一起。
同样,如果我请求日期为 01/01/2015 - 01/12/2015 的数据,那么我必须汇总这些时间段之间的所有数据(通过添加求和名称/统计数据)。
最后,如果我要求在日期 01/01/2015 - 01/12/2015 之间获取位置 1、2、3、4..N 的数据,那么我必须汇总这些日期之间所有这些位置的所有数据。
为了这个例子,我们假设处理统计数据需要某种嵌套循环,并且不能很好地扩展,尤其是在运行中。
最佳答案
从您的描述来看,您的数据似乎是一个时间序列数据集。用户在查询时似乎最关心时间,选择时间范围后,用户会通过附加条件细化结果。
考虑到这一点,我建议您尝试使用时间序列数据库,例如InfluxDB或 OpenTSD .例如,Influx 提供了一种能够处理如下查询的查询语言,这与您要实现的目标非常接近:
SELECT count(location) FROM events
WHERE time > '2013-08-12 22:32:01.232' AND time < '2013-08-13'
GROUP BY time(10m);
我不确定您所说的scale 是什么意思,但是时间序列数据库被设计为可以快速处理大量数据点。我建议在推出您自己的解决方案之前一定要试一试!
关于database - NxN 数据聚合的数据存储设计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32773055/
有一个 N×N 的井字棋盘,有 2 个玩家。这个游戏不同于普通的井字游戏,因为只有当棋盘被完全填满时游戏才会结束。连续三个获得一分,连续四个获得两分,连续五个获得三分,并且很快。 “成一行”可以表示水
我正在尝试为数据聚合和存储的 NxN 问题提出一个理论解决方案。例如,我有大量数据通过流传入。流以点为单位发送数据。每个点有 5 个维度: Location Date Time Name Statis
我正在尝试创建一种算法,使用直接的方法在 N x N 矩阵中查找所有峰。但是我在角落、第一行和最后一行以及第一列和最后一列方面遇到了一些问题。我正在考虑如下问题: [ ][c][ ][ ] a is
我正在寻找优化数据的平方(最大分数),其中每一行都被选择而无需替换。这是一个小例子,但我想要一个允许 30x30 表的算法。 opt_table = data.frame(player = c('A'
行列式定义只有加法、减法和乘法。所以具有整数元素的矩阵的行列式 必须是整数 . 然而numpy.linalg.det()返回一个“稍微偏离”的浮点数: >>> import numpy >>> M =
一般来说,我想计算复方 (NxN) 矩阵的逆矩阵。 F.ex 我有一个 5x5 矩阵: Ybus = [ 6.2500 -18.6950i, -5.0000 +15.0000i, -1.2500
我有一个 NxN 矩阵,它尝试通过以下代码转置它: for(int i = 0; i < mat_size; ++i) { for(int j = 0; j < mat_siz
我已经为 nxn 矩阵编写了一个类(我已经在处理过程中编写了这个类,但我希望这个想法仍然清晰) class Matrix { float[][] entries; Matrix(int n_)
我想知道如何使用曼哈顿距离启发式来驱动 NxN 二维数组中的搜索。我有以下曼哈顿距离: private int manhattan(int[] pos, int tile) { int
我必须模拟一种传染病在世界上由 NxN 个国家/地区传播的情况。最初世界上会有P个人,然后我们必须将这些人统一随机分配到每个国家。 我遇到的问题是如何为每个国家/地区分配一定数量的人员? 如果我有一个
我将图像转换为 0 和 1 的 100x100 矩阵。 ntile 是 nXn 选择。我试图计算矩阵中有多少 2 个图块,最左边的 2 个条目是 1,最右边的两个条目是 0。 例如 [1 0] [1
想象一个机器人坐在 NxN 网格的左上角。机器人只能向三个方向移动:右、下、斜下。机器人必须到达 NxN 网格的右下角。想象某些方 block 是“禁区”或“偏移”,这样机器人就无法踩到它们。编写一个
已经花了几个小时在这上面了(因为我还在学习),所以也许你们可以帮忙。问题是我无法弄清楚如何将二维数组划分为所有可能的 nxn 正方形。 我正在随机化二维数组,可以说它是这样的: 1 0 1 0 2
这个问题已经有答案了: self referential struct definition? (9 个回答) 已关闭 7 年前。 我有一个脚本 a.h #include b.h type
我正在尝试找出一个好的循环展开来将两个矩阵相乘。 例如,如果我们想要对 NxN 矩阵求和: void SumMatrix(int *M, int n, int *result) { int i,
好吧,情况是我想创建一个 NxN 矩阵来表示位图图像的像素。 然后,我想将落在某个区域的所有像素的值更改为恒定值。 该区域是使用极坐标定义的。 例如, 让矩阵表示 2048x2048 像素位图,并且该
我有一个列表列表,用于存储对象之间的距离。 表格看起来像这样: +----------+----------+----------+----------+----------+ |
这个问题在这里已经有了答案: Two-dimensional array in Swift (11 个答案) 关闭 3 年前。 我可以知道如何获得 NxN 矩阵的数组大小吗 比如我的输入是 4x4
我正在尝试编写一个程序来计算任何 NxN 矩阵的行列式,而不管大小如何,但该程序有问题,对于任何大小大于 1 的矩阵都会崩溃。 如果有人能告诉我我做错了什么,我将不胜感激。我是 C++ 和动态内存的新
我正在使用马尔可夫链解决问题,为此我需要生成一个 NxN 转换矩阵。 矩阵的第一行、第一列和左下对角线应包含零,并且随着行的增加而增加大小的分数。对于 NxN 矩阵,第一行中的分数是 1/n,下一行是
我是一名优秀的程序员,十分优秀!