- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在尝试为数据聚合和存储的 NxN 问题提出一个理论解决方案。例如,我有大量数据通过流传入。流以点为单位发送数据。每个点有 5 个维度:
- Location
- Date
- Time
- Name
- Statistics
然后需要聚合和存储此数据,以允许另一个用户来查询位置和时间数据。用户应该能够像下面这样查询(伪代码):
Show me aggregated statistics for Location 1,2,3,4,....N between Dates 01/01/2011 and 01/03/2011 between times 11am and 4pm
不幸的是,由于数据的规模,不可能从动态点聚合所有这些数据,因此需要在此之前进行聚合。正如您所见,尽管可以在多个维度上聚合数据。
他们可以查询任意天数或地点,因此找到所有组合需要大量的预聚合:
- Record for Locations 1 Today
- Record for Locations 1,2 Today
- Record for Locations 1,3 Today
- Record for Locations 1,2,3 Today
- etc... up to N
在查询之前对所有这些组合进行预处理可能会导致不可行的处理量。如果我们有 200 个不同的位置,那么我们就有 2^200 种组合,这几乎不可能在任何合理的时间内预先计算。
我确实考虑过在一维上创建记录,然后在请求时可以即时进行合并,但这也需要大量时间。
问题:
感谢您的宝贵时间。
编辑 1
当我说将数据聚合在一起时,我的意思是将其他维度的统计信息和名称(维度 4 和 5)结合起来。因此,例如,如果我请求位置 1、2、3、4..N 的数据,那么在将其提供给用户之前,我必须将这 N 个位置的统计信息和名称计数合并在一起。
同样,如果我请求日期为 01/01/2015 - 01/12/2015 的数据,那么我必须汇总这些时间段之间的所有数据(通过添加求和名称/统计数据)。
最后,如果我要求在日期 01/01/2015 - 01/12/2015 之间获取位置 1、2、3、4..N 的数据,那么我必须汇总这些日期之间所有这些位置的所有数据。
为了这个例子,我们假设处理统计数据需要某种嵌套循环,并且不能很好地扩展,尤其是在运行中。
最佳答案
从您的描述来看,您的数据似乎是一个时间序列数据集。用户在查询时似乎最关心时间,选择时间范围后,用户会通过附加条件细化结果。
考虑到这一点,我建议您尝试使用时间序列数据库,例如InfluxDB或 OpenTSD .例如,Influx 提供了一种能够处理如下查询的查询语言,这与您要实现的目标非常接近:
SELECT count(location) FROM events
WHERE time > '2013-08-12 22:32:01.232' AND time < '2013-08-13'
GROUP BY time(10m);
我不确定您所说的scale 是什么意思,但是时间序列数据库被设计为可以快速处理大量数据点。我建议在推出您自己的解决方案之前一定要试一试!
关于database - NxN 数据聚合的数据存储设计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32773055/
关闭。这个问题需要更多focused .它目前不接受答案。 想改善这个问题吗?更新问题,使其仅关注一个问题 editing this post . 4年前关闭。 Improve this questi
.NET 框架:4.5.1 我在 Blend for visual studio 2015 中遇到一个奇怪的错误,我找不到它的来源。 如果我在 VS 中打开我的 WPF 解决方案,它会加载并运行良好。
我经常遇到这样的问题,与 Hierarchical RESTful URL design 非常相似 假设该服务仅提供用户上传文档。 POST, GET /accounts PUT, DELETE /a
在 Rails 应用程序中,我使用 devise 来管理我的用户,而我用来销毁 session 的链接不再有效。它正在工作,现在我添加了事件管理员,但没有。 我的链接是 :delete, :clas
我已经坚持了超过 24 小时,试图按照此处发布的其他解决方案进行操作,但我无法使其正常工作。我是 Rails 新手,需要帮助! 我想让我的/users/edit 页面正常工作,以便我可以简单地更改用户
Devise 在以下情况下不会使用户超时: 用户登录,关闭选项卡,然后在超时 + X 分钟内重新访问该 URL。用户仍处于登录状态。 如果选项卡已打开并且稍后刷新/单击,则超时可以正常工作。这意味着
我想使用这样的 slider 我希望该 slider 根据提供给它的值进行相应调整。到目前为止,我只能应用具有渐变效果的背景,但无法获得这种效果。请通过提供样式代码来帮助我。
您应该为每种方法创建一个请求/响应对象,还是应该为每个服务创建一个? 如果我在所有方法中使用它,我的服务请求对象中将只有 5 个不同的东西,因为我对几乎所有方法使用相同的输入。 响应对象将只有一个字典
我正在尝试在 REST 中对实体的附件进行建模。假设一个缺陷实体可以附加多个附件。每个附件都有描述和一些其他属性(上次修改时间、文件大小...)。附件本身是任何格式的文件(jpeg、doc ...)
我有以下表格: Blogs { BlogName } BlogPosts { BlogName, PostTitle } 博客文章同时建模一个实体和一个关系,根据 6nf(根据第三个宣言)这是无效的。
如果 A 类与 B、C 和 D 类中的每一个都有唯一的交互,那么交互的代码应该在 A 中还是在 B、C 和 D 中? 我正在编写一个小游戏,其中许多对象可以与其他对象进行独特的交互。例如,EMP点击
关于如何记住我与 Omniauth 一起工作似乎有些困惑。 根据这个wiki ,您需要在 OmniauthCallbacksController 中包含以下内容: remember_me(user)
设计问题: 使用 非线程安全 组件(集合,API,...)在/带有 多线程成分 ... 例子 : 组件 1 :多线程套接字服务器谁向消息处理程序发送消息... 组件 2 :非线程安全 消息处理程序 谁
我们目前正在设计一个 RESTful 应用程序。我们决定使用 XML 作为我们的基本表示。 我有以下关于在 XML 中设计/建模应用程序数据的问题。 在 XML 中进行数据建模的方法有哪些?从头开始然
我正在设计一个新的 XSD 来从业务合作伙伴那里获取积分信息。对于每笔交易,合作伙伴必须提供至少一种积分类型的积分值。我有以下几点:
设计支持多个版本的 API 的最佳方法是什么。我如何确保即使我的数据架构发生更改(微小更改),我的 api 的使用者也不会受到影响?任何引用架构、指南都非常有用。 最佳答案 Mark Nottingh
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 4 年前。 Improv
我想用 php 创建一个网站,其工作方式与 https://www.bitcoins.lc/ 相同。确实,就每个页面上具有相同布局但内容会随着您更改链接/页面而改变而言,我如何在 php 中使用lay
我有一个关于编写 Swing UI 的问题。如果我想制作一个带有某些选项的软件,例如在第一个框架上,我有三个按钮(新建、选项、退出)。 现在,如果用户单击新按钮,我想将框架中的整个内容更改为其他内容。
我正在尝试找出并学习将应用程序拥有的一堆Docker容器移至Kubernetes的模式和最佳实践。诸如Pod设计,服务,部署之类的东西。例如,我可以创建一个其中包含单个Web和应用程序容器的Pod,但
我是一名优秀的程序员,十分优秀!