- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在尝试了解什么是 OLAP、OLTP、数据挖掘、分析等,但我觉得我对其中一些概念的理解仍然有点模糊。有关这些主题的信息在互联网上往往以非常复杂的方式进行解释。
我觉得这样的问题很可能会被关闭,因为它是一个非常广泛的问题,所以我会尽量将其缩小为两个问题:
问题 1:
经过研究,我对这些概念的理解如下,是否正确?
问题 2:
我对分析和分析之间的区别特别困惑。他们说分析是多维分析,但这到底是什么意思?
最佳答案
我将尝试从金字塔的顶端向您解释:
商业智能(你没有提到的)是 IT 中的一个术语,它代表一个复杂的系统,并从数据中提供有关公司的有用信息。
因此,BI 系统具有目标:干净、准确和有意义的信息。干净意味着没有技术问题(丢失 key 、不完整数据等)。准确意味着准确 - BI 系统还用作生产数据库的故障检查器(逻辑故障 - 即发票账单太高,或使用不活跃的合作伙伴等)。它是通过 规则 完成的。有意义很难解释,但用简单的英语来说,就是你所有的数据(甚至是上次 session 的 excel 表),以你想要的方式。
因此,BI 系统有后端:它是数据仓库。DWH 就是一个数据库(实例,不是软件)。它可以存储在 RDBMS、分析数据库(列式或文档存储类型)或 NoSQL 数据库中。
数据仓库 是我上面解释的通常用于整个数据库的术语。可能有多个数据集市(如果使用 Kimball 模型)- 更常见,或者称为 企业数据仓库 的第三规范化形式(Inmon 模型)的关系系统。
数据集市 是 DWH 中相关的表(星型模式、雪花模式)。事实表(非规范化形式的业务流程)和维度表。
每个数据集市代表一个业务流程。示例:DWH 有 3 个数据集市。一是零售,二是导出,三是进口。在零售中,您可以按 SKU、日期、商店、城市等(维度)查看总销售额、售出数量、进口价格、利润(度量)。
在 DWH 中加载数据称为ETL(提取、转换、加载)。
从多个来源(ERP 数据库、CRM 数据库、excel 文件、网络服务...)提取数据
转换数据(清理数据、连接差异源数据、匹配键、挖掘数据)
加载数据(加载特定数据集市中转换后的数据)
edit beautiful comment:ETL过程通常使用ETL工具创建,或者使用一些编程语言(python、c#等)和API手动创建。
ETL 过程是一组相关的 SQL、过程、脚本和规则,分为 3 个部分(见上图),由元数据控制。它可以安排(每晚,每隔几个小时)或实时(更改数据捕获、触发器、事务)。
OLTP 和 OLAP 是数据处理类型。 OLTP 用于事务目的,在数据库和软件之间(通常只有一种输入/输出数据的方式)。OLAP 用于分析目的,这意味着有多个来源、历史数据、高选择查询性能、挖掘数据。
因评论而编辑:数据处理是数据存储和从数据库访问的方式。因此,根据您的需要,以不同的方式设置数据库。
图片来自http://datawarehouse4u.info/ :
数据挖掘 是在大型数据集中发现模式的计算过程。挖掘的数据可以让您更深入地了解业务流程甚至预测。
分析 是一个动词,在 BI 世界中意味着简单从数据中获取所询问的信息。多维分析实际上说明系统如何切片您的数据(多维数据集内的维度)。维基百科说,数据分析是一个检查数据的过程,目的是发现有用的信息。
Analytics 是一个名词,代表分析过程的结果。
不要对这两个词大惊小怪。
关于database - OLAP、OLTP、数据仓库、分析、分析和数据挖掘有何关联?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25933904/
我有一个交易应用程序,销售代表要输入门票,我必须立即将它们存储起来。我之所以选择ES,是因为技术人员可能会输入一些非结构化数据,并且他们希望以后进行搜索。 将数据直接存储在ES中而不是RDBMS中可以
我们有一个使用 Oracle 数据库 10g 企业版的 OLTP 应用程序, 并计划搭建业务报表层,满足以下需求。 当前 OLTP 数据库设计的屏蔽复杂性 提高当前 OLTP 报表的查询性能 提供对其
我正在寻找一种扩展工作场所基础设施的方法。目前只有一个数据库,大小约为1.5TB。大多数查询都是 OLTP 类型,例如插入、更新、删除。 我正在考虑使用类似的方法对数据库进行分片CitusDB、Pos
我有一个主要用例,我想拥有一个我正在使用 Postgres 的事务关系数据库。 我还需要对数据运行频繁的聚合查询(计数、总和、平均值)。这些统计数据无法预先计算,因为我们必须提供多个搜索过滤器。 我最
将数据从典型的实体关系 OLTP 数据库模型加载到 Kimball 星型模式数据仓库/集市模型中时采用的常见设计方法是什么? 您是否使用暂存区来执行转换,然后加载到仓库中? 如何链接仓库和 OLTP
我正在尝试在应用程序运行和繁忙时向 Oracle 10 OLTP 数据库中的常用表添加可为空的列。添加可为空的列只是数据字典更改,因此任何表锁都只会保持很短的时间(可由系统处理)。 问题是我的 ALT
mongo db 适合 OLTP 还是 DW 操作? mongodb在OLTP操作中的响应时间和效率如何?使用 mongodb 作为 Web 应用程序的后端是否安全? 在mongodb本身我们可以做m
OLAP 和 OLTP 数据库之间的主要区别是什么。特别是在实现方面(而不是用例)。 OLAP 当然主要用于报表,而 OLTP 则用于处理事务。 我了解 OLAP 数据库针对读写进行了优化,并且 OL
我熟悉 SQL Server 索引 View (或 Oracle 实体化 View ),我们在 OLAP 应用程序中使用它们。它们具有非常酷的功能,能够篡改执行计划并将其重新映射到索引 View ,而
Vertica 数据库可以用于 OLTP 数据吗? 如果是这样,这样做的利弊是什么? 寻找 Vertica 与 Oracle 的较量 :) 由于 Oracle 许可证如此昂贵,Vertica 会以更好
我们正在致力于设计一个典型的 OLTP 应用程序(例如:采购系统)。然而,这个特别需要一些用户处于离线状态,因此他们需要能够将数据库下载到他们的计算机上,对其进行处理,然后在连接到 LAN 后同步回来
尽管翻阅了书籍和文章,但我无法找到以下问题的具体答案。 OLAP 和 OLTP 的最小和最大规范化程度应该是多少? 我推测,OLTP 的最小值是第三范式,OLAP 的最大值是第二范式。 我们能否提供详
我正在尝试使用 sysbench 在 mySQL 数据库上运行基准测试。但是,它说找不到内置测试 oltp。 详情:我已经在我的本地机器上安装了 mySQL 和 sysbench。另外,我在 mySQ
我正在尝试了解什么是 OLAP、OLTP、数据挖掘、分析等,但我觉得我对其中一些概念的理解仍然有点模糊。有关这些主题的信息在互联网上往往以非常复杂的方式进行解释。 我觉得这样的问题很可能会被关闭,因为
我有一个相当标准的 OLTP 规范化数据库,我意识到我需要对数据的不同维度进行一些复杂的查询、平均值、标准偏差。 所以我转向了 SSAS 和 OLAP 多维数据集的创建。 但是,要创建多维数据集,我认
它们到底是什么意思?我找到的所有关于它们的文章都没有给我一个想法,或者我的知识太少无法理解。 谁能给我一些资源,让我可以从头开始学习。 最佳答案 在这里你会找到更好的解决方案OLTP vs. OLAP
试图了解事务隔离级别如何在 SQL Server 内存优化表(内存中 oltp)上工作。 如果我执行以下查询: SET TRANSACTION ISOLATION LEVEL READ COMMITT
在小 Sprite 中, s = graph.traversal() g = graph.traversal(computer()) 我知道第一个用于 OLTP,第二个用于 OLAP。我知道定义级别的
在内存优化表中创建哈希索引时,我可以设置变量BUCKET_COUNT的值 CREATE TABLE [Table1] ( [Id] INT NOT NULL IDENTITY(1,1) PRIMARY
我们有一个用 Spring Boot 编写的 REST API。该应用程序的一部分是每天运行的 Spring Batch 作业。我希望在 Spring Batch 作业完成后将退出代码返回到启动应用程
我是一名优秀的程序员,十分优秀!