- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我们目前正在开发一个 Web 应用程序,用于处理位于数据库表中的大量存档数据。表中的数据行由一个唯一的行 ID、两个标识机器和数据点的 ID、一个值和一个时间戳组成。每当值更改超过给定阈值时,每台机器都会将其数据发送到此表。该表通常包含数百万到数亿个条目。
出于可视化的目的,我创建了一个存储过程,它采用识别机器和数据点所需的两个 ID,以及开始和结束日期时间。然后它将开始和结束之间的值聚合成可变长度的块(通常为 15 分钟、1 小时、7 天等),并返回给定时间间隔内每个块的平均值、最小值和最大值。
该方法有效,但需要大量时间,即使进行了大量数据库优化和索引。所以在前端图表页面显示所选范围和机器的数据大约需要10到60秒,我认为这太多了。
所以我开始考虑创建一个新表,其中包含每个“块”的每台机器的预聚合数据。为了实现这一点,必须每隔 [chunksize]
自动调用聚合过程。每台机器的分钟/小时/天。然后可以很容易地从更细的块中创建更粗的块,等等。据我所知,这将大大加快整个过程。
问题是:实现定期聚合的最佳方法是什么?有没有办法让数据库自己完成这项工作?或者我是否必须在 ASP.NET MVC Web 应用程序中实现基于计时器的解决方案?后者需要 Web 应用程序始终运行,这可能不是最好的方法,因为它可能因各种原因而关闭。另一种选择是处理此任务的独立应用程序或服务。还有其他我没有想到的方法吗?你会如何处理这个问题?
最佳答案
在我们的系统中,我们有一张包含原始原始数据的表格。此原始数据汇总为每小时、每天和每周的时间间隔(每个时间间隔的原始值的总和、最小值、最大值)。
我们保留原始数据 30 天(4 周),每小时保留 43 天(6 周),每天保留 560 天(18 个月),每周保留 10 年。每晚都会“清理”这四个表,并删除超过阈值的数据。每小时表大约有 30M 行,每天有 18M 行。一些报告/图表使用每小时数据,大多数使用每日数据。有时,我们需要查看原始数据以详细调查问题。
我有一个用 C++ 编写的专用应用程序,它在服务器上 24/7 全天候运行,并从大约 200 个其他服务器收集原始数据并将其插入中央数据库。在应用程序中,我定期(每 10 分钟)调用一个重新计算摘要的存储过程。如果用户想要查看最新数据,则该存储过程也可以由最终用户随时运行。通常运行大约需要 10 秒,因此最终用户通常会看到延迟摘要。因此,从技术上讲,服务器上可能会有一个计划作业,每 10 分钟运行一次该过程。当我通过应用程序执行此操作时,我可以更好地控制收集数据的其他线程。本质上,我会在汇总时暂停尝试插入新数据。但是,仅使用独立的存储过程就可以达到相同的效果。
在我的情况下,我可以使摘要的重新计算相当有效。
INSERT
语句中插入了许多行,这很好。 ID timestamp raw_value
1 2015-01-01 23:54:45 123
1 2015-01-01 23:57:12 456
1 2015-01-02 00:03:23 789
2 2015-01-02 02:05:21 909
ID hourlytimestamp dailytimestamp weeklytimestamp
1 2015-01-01 23:00:00 2015-01-01 00:00:00 2014-12-29 00:00:00
1 2015-01-02 00:00:00 2015-01-02 00:00:00 2014-12-29 00:00:00
2 2015-01-02 00:00:00 2015-01-02 00:00:00 2014-12-29 00:00:00
StatsToRecalc
是此临时表,
@ParamRows
是具有一批包含新数据的行的存储过程):
DECLARE @VarStart datetime = '20000103'; -- it is Monday
INSERT INTO dbo.StatsToRecalc
(ID
,PeriodBeginLocalDateTimeHour
,PeriodBeginLocalDateTimeDay
,PeriodBeginLocalDateTimeWeek)
SELECT DISTINCT
TT.[ID],
-- Truncate time to 1 hour.
DATEADD(hour, DATEDIFF(hour, @VarStart, TT.PlaybackStartedLocalDateTime), @VarStart),
-- Truncate time to 1 day.
DATEADD(day, DATEDIFF(day, @VarStart, TT.PlaybackStartedLocalDateTime), @VarStart),
-- Truncate time to 1 week.
DATEADD(day, ROUND(DATEDIFF(day, @VarStart, TT.PlaybackStartedLocalDateTime) / 7, 0, 1) * 7, @VarStart)
FROM @ParamRows AS TT;
INSERT
从
@ParamRows
到原始表中。
INSERTS
放入原始表和临时表中。
SELECT @VarCount = COUNT(*)
FROM dbo.StatsToRecalc
WITH (HOLDLOCK)
StatsToRecalc
不为空,我们需要做一些事情。由于该表被锁定,所有工作线程都不会干扰,并且会等到重新计算完成后再添加更多数据。
MERGE
语句中完成,该语句一次性处理所有受影响的 ID 和区间。我运行三个
MERGEs
将原始数据汇总为每小时汇总,然后每小时汇总为每日汇总,然后每天汇总为每周汇总。然后临时表被清空(每 10 分钟一次),所以它永远不会变得太大。
MERGE
首先列出自上次重新计算以来受影响的 ID 和时间戳(例如,从每小时更新每日表):
WITH
CTE_Changed (ID, PeriodBeginLocalDateTimeDay)
AS
(
SELECT
dbo.StatsToRecalc.ID
, dbo.StatsToRecalc.PeriodBeginLocalDateTimeDay
FROM
dbo.StatsToRecalc
GROUP BY
dbo.StatsToRecalc.ID
,dbo.StatsToRecalc.PeriodBeginLocalDateTimeDay
)
MERGE
中将小时表与此 CTE 连接起来:
MERGE INTO dbo.StatsDay AS Dest
USING
(
SELECT
...
FROM
dbo.StatsHour
INNER JOIN CTE_Changed ON
CTE_Changed.ID = dbo.StatsHour.ID AND
CTE_Changed.PeriodBeginLocalDateTimeDay = dbo.StatsHour.PeriodBeginLocalDateTimeDay
)
...
PeriodBeginLocalDateTimeHour
列,其中包含如下值:
2015-01-01 22:00:00
2015-01-01 23:00:00
2015-01-02 00:00:00
2015-01-02 01:00:00
...
PeriodBeginLocalDateTimeDay
,它包含如下值:
2015-01-01 00:00:00
2015-01-02 00:00:00
...
关于c# - 在 DB 中自动聚合数据的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30296473/
我想做的是,如果鼠标位于“下一个”按钮上,它会以慢速向右滚动,如果鼠标没有位于“下一个”按钮上,它会停止滚动? 这是我的尝试http://jsfiddle.net/mdanz/nCCRy/14/ $(
StyleCop 是一个很棒的视觉工作室小插件。但它不会向您显示实时提示或提供任何自动修复。 随之而来的是 reSharper 和 StyleCop for reSharper,这是理想的解决方案,但
我为我的MatchQuery使用了模糊性选项,但是我想将模糊性值设置为auto。有什么办法吗? 另外,对于完成建议程序,您可以将其设置为支持unicode,对于我的MatchQuery,有什么方法可以
我想从表中获取一行[字符串名称,字符串密码,int 某些内容]并将其映射到一个 User 对象,该对象具有 3 个属性,如上面的 getter 和 setter有什么方法可以自动完成吗?我考虑过反射,
我有一个像这样的方法:void m1(string str) 并且有一个像这样的类: public class MyClass { public bool b1 { set; get; }
我正在尝试使用 $rootScope 从一个 Controller 向另一个 Controller $broadcast 一些数据。 如果我使用像 ng-click 这样的触发器来运行将广播的功能,它
我考虑了很多关于是要使用完全自动化的缓存还是手动缓存。 我们的自动方法是一种解决方案,它可以挖掘数据库、查询和格式化每个潜在和 future 的数据请求,并将其保存到适当的缓存存储(内存缓存或基于磁盘
我的 CSS 必须使用过渡来更改,直到现在我都使用 div:hover 来实现。 当您单击另一个 div 时需要激活过渡,而不是当您将鼠标悬停在必须移动/更改的 div 上时。 我该怎么做? 谢谢 永
在我的应用程序中,我需要一些动画,但如果它已经设置了动画,则不需要持续时间。但我的问题是它会自动添加持续时间。 在这里你可以看到 2 个函数,第二个没有持续时间但它确实有持续时间(可能从 1 秒开始)
两年前,我需要制作一个工具,通过 POST 自动将 txt/csv 文件上传到我的 Web 服务器,然后使用 cronjob 通过 PHP 对其进行解析。 这有两次在每天午夜自动发生。尽管这行得通,但
请阅读下面程序中的评论: #include void test(char c[]) { c=c+2; //why does this work ? c--; printf("%
也许是个幼稚的问题,但是...... 确认或拒绝: 自动和静态存储持续时间的对象/变量的内存的存在是在编译时确定的,程序运行时失败的可能性绝对为零,因为没有足够的内存用于自动对象。 自然地,当自动对象
有没有什么方法可以自动获得类中属性更改的通知,而不必在每个 setter 中都编写 OnPropertyChanged? (我有数百个属性,我想知道它们是否已更改)。 安东建议 dynamic pro
我们在使用 Azure DevOps 的项目中采用了 gitflow 流程。我有以下场景: 当功能分支合并到 Develop 时,我想在完成拉取请求的同时执行压缩合并策略 当 Release 分支定期
我的网站上有一个评论部分,我将 html 编码的评论保存在我的数据库中。所以我添加了这条评论- "testing" `quotes` \and backslashes\ and html 并将其保存在
是否存在“ checkin 前 TFS 自动 checkout ”这样的功能,以便在我说“ checkin ”之前我不会 checkout 任何文件,例如以防我只是临时更改文件 - 这一直发生。 换句
我有一个运行在 Linux/Apache/Tomcat 堆栈上的网站,它需要每隔几个月自动脱机以进行服务器维护,这将持续任意时间。有哪些选项可以让 Apache 建立和取消“服务器维护”页面? 我需要
我经常在工作中创建文档,在公司内部,由于我们使用的首字母缩写词和缩写词的数量,我们几乎拥有自己的语言。因此,我厌倦了在发布文档之前手动创建首字母缩写词和缩写表,并且快速的谷歌搜索发现了一个可以有效地为
我希望在用户或宏将计算模式从自动更改为手动或手动更改为自动时运行代码。是否有为此触发的事件? (属性是 Application.Calculation 在 Excel 互操作中。) 使用 Excel
这个问题在这里已经有了答案: Repeat command automatically in Linux (13 个回答) 6年前关闭。 我想创建一个脚本来获取另一个文件夹中的所有文件夹名称。并为这些
我是一名优秀的程序员,十分优秀!