- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我面临的问题与合理快速地存储和检索数百万日志有关。我致力于从防火墙、入侵检测和预防系统、应用程序日志、用户事件等收集日常日志,将它们存储在数据库中,执行实时报告并将它们关联起来以识别入侵等。所以在使用 syslog 构建系统之后和 mysql 我发现目前的瓶颈是数据库。我只有关系数据库方面的经验。另一方面,我完全迷失了数据库领域中所有现有的和我所了解的技术。
那么 NoSQL 数据库(mongo、cassandra 等)会比传统数据库(MySQL、Oracle、MSSQL 等)更好并胜过传统数据库吗?从我读到的内容到现在,没有聚合函数,因此报告将不可行,对吗?
Dataware Houses 能更好地满足我的需求吗?我知道它们用于报告但不是实时的。是真的吗,或者今天有任何实现可能支持近乎实时的可能是可以接受的吗?我发现这或多或少是设计数据库模式的一种不同方式,而传统数据库可能是这种方式的绝佳选择。这是真的吗?
我还被建议创建表分区但不使用数据库中存在的数据库功能。我的想法是可能根据大小使用单独的表,并创建存储和更新单独表索引的过程,并通常在我需要执行连接或聚合时操纵它们以加快速度。有没有人听说过或使用过类似的东西?因为一开始我觉得这样的解决方案完全不适用。
到底有没有可能将上面的一些技术进行迁移,以获得更好更平衡的结果呢?
我知道这是个大问题。但是我发现我在 RDBMS 方面的最新知识和经验不足以解决问题。由于技术太多,我需要听取意见、讨论并接受过去有经验的人的指导。还要讨论某些方法的优缺点。有没有你可以推荐的对我有帮助的论坛?最后一件事是数据量的度量级别是 TB,而不是 PB,因此这可能会排除某些技术,例如 hadoop。
最佳答案
在确定存储方法之前,问题是您要进行哪种类型的分析。
对于面向聚合的工作负载和您所谈论的数据量,传统的 rdbms(如 oracle、sql server 或 postgresql 运行在强大的服务器上)应该可以。它们原生支持分区和其他 DWH 技术(例如物化 View ),这将节省您自己拼凑的时间。例如,Oracle 查询优化器在生成新的查询计划时会考虑分区。
作为报告前端,您可以选择市售的前端之一,也可以创建自己的前端。一些选项是 obiee、SQL 服务器报告服务、cognos 和 pentaho(免费)它们都在一定程度上支持跨数据库报告(结合 DWH + 运营商店)。
如果您需要对涉及大量(十亿行数据集)聚合的任意查询的即时答案,您可以查看 teradata、netezza、vertica 等。这些往往花费很多。
如果您经常希望即时回答涉及较小数据集聚合的任意查询,请查看 qlikview .他们有一个强大的内存分析工具。我相信单人使用是免费的。
如果这不仅仅是简单地累加数字,而是分析大量的复杂关系(类似图表的分析),那么您就不走运了。旧的解决方案不能很好地扩展或很昂贵,新的解决方案经常碰碰运气。无论哪种方式都会很昂贵。不知道你想如何关联事件,很难推荐任何东西。我不知道有任何通用解决方案。
就个人而言,我会选择 postgres(后端)+ pentaho 和 qlikview (都是前端)带有用于传统 ETL 和 hadoop 的水壶或自定义代码来预先计算结果以进行更复杂的分析。在 postgres 中,将您的数据拆分到一个运营商店和一个 DWH 中。
关于database-design - 适用于存储日志、实时报告并用作日志关联引擎的数据库设计或架构,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17962017/
Closed. This question is opinion-based。它当前不接受答案。 想改善这个问题吗?更新问题,以便editing this post用事实和引用来回答。 2年前关闭。
我想显示我的网站上所有用户都在线(实时;就像任何聊天模块一样)。我正在使用下面提到的脚本来执行此操作。 HTML: Javascript: var doClose = false; documen
有什么方法可以知道 Algolia 何时成功处理了排队作业,或者与上次重新索引相比,Algolia 是否索引了新文档? 我们希望建立一个系统,每当新文档被索引时,浏览网站的用户都会收到实时更新警告,并
构建将在“桌面”而不是浏览器中运行的 Java 应用程序的推荐策略是什么。该应用程序的特点是: 1. Multiple application instances would be running o
这是场景: 我正在编写一个医疗相关程序,可以在没有连接的情况下使用。当采取某些措施时,程序会将时间写入CoreData记录。 这就是问题所在,如果他们的设备将时间设置为比实际时间早的时间。那将是一个大
我有: $(document).ready(function () { $(".div1, .div2, .div3, .div4, .div5").draggable();
我有以下 jquery 代码: $("a[id*='Add_']").live('click', function() { //Get parentID to add to. var
我有一个 jsp 文件,其中包含一个表单。提交表单会调用处理发送的数据的 servlet。我希望当我点击提交按钮时,一个文本区域被跨越并且应该实时显示我的应用程序的日志。我正在使用 Tomcat 7。
我编辑了我的问题,我在 Default.aspx 页面中有一个提交按钮和文本框。我打开两个窗口Default.aspx。我想在这个窗口中向文本框输入文本并按提交,其他窗口将实时更新文本框。 请帮助我!
我用 php 创建了一个小型 CMS,如果其他用户在线或离线,我想显示已登录的用户。 目前,我只创建一个查询请求,但这不会一直更新。我希望用户在发生某些事情时立即看到更改。我正在寻找一个类似于 fac
我有以下问题需要解决。我必须构建一个图形查看器来查看海量数据集。 我们有一些特定格式的文件,其中包含数百万条代表实验结果的记录。每条记录代表大图上的一个样本点。我见过的最大的文件有 4370 万条记录
我最近完成了申请,但遇到了一个大问题。我一次只需要允许 1 个用户访问它。每个用户每次都可以访问一个索引页面和“开始”按钮。当用户点击开始时,应用程序锁定,其他人需要等到用户完成。当用户关闭选项卡/浏
我是 Android 开发新手。我正在寻找任何将音高变换应用到输出声音(实时)的方法。但我找不到任何起点。 我找到了这个 topic但我仍然不知道如何应用它。 有什么建议吗? 最佳答案 一般来说,该算
背景 用户计算机上的桌面应用程序从调制解调器获取电话号码,并在接到电话后将其发送到 PHP 脚本。目前,我可以通过 PHP 在指定端口上接收数据/数据包。然后我有一个连接到 411 数据库并返回指定电
很抱歉提出抽象问题,但我正在寻找一些关于在循环中执行一些等效操作的应用程序类型的示例/建议/文章,并且循环的每次迭代都应该在特定时间部分公开其结果(例如, 10 秒)。 我的应用程序在外部 WCF 服
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: What specifically are wall-clock-time, user-cpu-time,
我最近遇到了一个叫做 LiveChart 的工具,决定试用一下。 不幸的是,我在弄清楚如何实时更新图表值时遇到了一些问题。我很确定有一种干净正确的方法可以做到这一点,但我找不到它。 我希望能够通过 p
我正在实现实时 flutter 库 https://pub.dartlang.org/packages/true_time 遇到错误 W/DiskCacheClient(26153): Cannot
我一直在使用 instagram 的实时推送 api ( http://instagram.com/developer/realtime/ ) 来获取特定位置的更新。我使用“半径”的最大可能值,即 5
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
我是一名优秀的程序员,十分优秀!