- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章使用数据仓库BI的六种策略由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
数据仓库可以作为数据存储的辅助工具,帮助数据的集成、汇总和转换,以便更容易地为业务智能进行分析。团队可以通过采用云架构的新策略,最大限度地使用数据仓库.
随着云计算和用于数据集成、存储和管理的新型数据基础设施的兴起,数据仓库的性质和用途都发生了巨大的转变。即使一些企业酝酿使用数据湖来存储一切,数据湖仍然在为常规分析提供更快的访问和更一致的结构方面提供了很大的价值.
此外,用于流分析、数据准备和主数据管理的新工具可以帮助企业采用更好的数据仓库策略。这里有六种策略,可以帮助企业充分使用新的云数据仓库.
数据分析咨询公司Bartlett System的首席执行官和创始人Adam Nathan,他参与实施BI系统已经超过15年了。虽然在这期间,他发现了渐进式的进展,但他表示,“云服务的进步可能会从根本上改变BI专业人员挖掘数据仓库的方式,从而使BI受益。” 。
Nathan指出,“获取数据、清理数据、准备数据,并将其与不同的数据源进行集成,一直是IT团队中数据工程师遇到的难题。”使这一挑战变得更加严重的是,数据的所有者,那些真正了解信息语义价值的人,与数据本身是隔绝的.
他认为,“那些几乎没有时间帮忙,而且只了解数据的人,恰恰无法快速得到我需要的东西。” 。
团队现在可以在SQL中进行更多的数据准备活动,包括大数据和半结构化数据。根据Nathan的说法,随着SQL技能变得无处不在,数据工程已经变得大众化了.
由于这些工具变得更容易使用,并且需要更少的分散技能,因此不太需要熟悉多种语言和技术的集中式专家。Nathan认为,“这导致了数据工程师的崛起,反映了应用开发、分析和其他领域的类似趋势。” 。
数据共享也越来越容易。例如,Snowflake用户可以将数据集以离散的、精心策划的集合,公开给数据消费者,包括:合作伙伴、客户、供应商和其他人.
Nathan解释说,“如果我是一名在人力资源方面拥有良好SQL技能的分析师,我就可以在不需要外部支持的情况下管理和分享我的团队的数据。” 。
这一点很重要,因为它消除了IT在数据准备过程中的瓶颈。IT团队有更多的时间专注于准备原始数据.
接下来,团队需要简化正确的数据进入数据仓库的方式。随着IT部门的退出,团队可以开始考虑将其数据作为企业中每个小组的个人、策划、掌握和认证数据集的集合.
想要人力资源数据的人可以去找人力资源部门共享的数据集。人力资源部门的专家了解如何收集数据,为什么要收集数据,保持这些数据的更新,管理工作,并可以为其他部门的用户提供适当的背景,希望使用这些数据进行不同的分析。Nathan认为:“实际上,每个部门都在提供数据价值。” 。
其他人可以请求访问权限,但无法更改。这种框架还可以更容易地集成来自给定部门的数据,或者与企业内可用的其他数据集,甚至外部数据集集成.
策划管理策略将数据质量监督从一个中央部门转移到单独的团队,可以提供更大的监督效果。因此,我们可以相信,最好的人力资源数据来自于人力资源共享站点。“这是一个很小的问题,也更易于管理。”Nathan说道.
分布式管理也带来了一个全新的挑战,即数据集需要保持一致,并以极其谨慎和安全的方式进行更改。“如果对数据的治理实施得不好,就会成为一种自由竞争,这可能是最大的风险。”Nathan说.
数据管理团队需要与每个部门合作,帮助制定数据合同,为他们提供的数据建立服务级别协议。合同有助于确定每个人对可靠性和及时性的期望。Nathan表示,“这可能会使IT部门感到痛苦,因为治理问题和角色的减少。” 。
Capgemini公司全球洞察力和数据副总裁Avneet Dugal说,“数据仓库有一个令人质疑的名字,那就是它是大型的、难以操作的数据存储库,因此不适合实时分析和决策。” 。
她看到的挑战是,团队正在试图将所有数据移入数据仓库。将大量的数据转移到另一个平台,并重建经验上可信的数据是一项复杂的工作。例如,企业可以通过根据业务重点(供应链、财务或营销)来组织数据,使其更容易查看和使用.
Dugal还发现将“增量”更新构建为核心处理能力的一部分是有帮助的,这使得数据变化更容易出现在各种分析用例中,并减少了对所有数据的更改,以包括最后一天的更新需求.
ScienceSoft的数据分析部门负责人Alex Bekker表示,“考虑战略和战术层面的管理之间的差距也很重要。”其中一个方面是建立一个精心设计的数据治理框架,以确保数据仓库摄入高质量的数据,这些数据被安全地处理和存储,并且只能根据用户角色来访问.
选择具有大量集成功能的数据仓库软件也是很有帮助的,比如预建的数据源连接器和开放式API,以确保数据仓库的可扩展性。这有助于添加新的数据源以解决不断变化的业务需求.
另一个方面是围绕集成、质量、安全和备份,实现数据仓库维护和管理活动的自动化。这降低了数据仓库的运营成本,并确保高性能和可用性.
Fivetran公司首席分析技术产品经理Veronica Zhai也建议,将关键业务逻辑集中到一个地方。例如,关键的业务逻辑,如 “什么是净收入?”应该在代码中定义一次,放在一个有版本控制的地方,所有分析师和业务用户都可以重复使用这段代码。这也节省了时间,并确保报告的一致性.
最后此篇关于使用数据仓库BI的六种策略的文章就讲到这里了,如果你想了解更多关于使用数据仓库BI的六种策略的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
Hortonworks 数据平台 HDP 3.0 有 spark 2.3 和 Hive 3.1,默认情况下 spark 2.3 应用程序(pyspark/spark-sql 等)使用 spark 数据
是否最好让一个软件仓库包含多个文件夹,这些文件夹映射到工作区中的不同路径。或者一个仓库中的多个文件夹映射到多个工作区,或多个仓库映射到多个工作区。 有人对此事有任何实用建议吗? 我还注意到,当我在仓库
Git 是分布式源代码控制系统,对吧。如何在没有集中存储库的情况下连接两个开发人员。 我们的团队使用 Github,如果两个开发人员想在同一个分支上工作,似乎需要将该分支推送到远程,然后他们才能访问它
Maven – 仓库 什么是 Maven 仓库? 在Maven 的术语中,仓库是一个位置(place),例如目录,可以存储所有的工程 jar 文件、library jar 文件、插件或任何其他的工
关闭。这个问题需要更多focused .它目前不接受答案。 想改善这个问题吗?更新问题,使其仅关注一个问题 editing this post . 3年前关闭。 Improve this questi
我开始将 git 与我的 .git 目录以及网络根目录中的其他所有内容一起使用。进一步阅读后,这似乎是一种不好的做法。我现在将我的应用程序和系统文件夹放在网络根目录之外。我的网络根目录中唯一剩下的就是
有没有可能没有历史的 Git 仓库?例如,我有一个我工作的本地 Git 存储库,我想将最新版本推送到生产服务器。生产服务器上不应存储任何历史记录。我该怎么做? 最佳答案 你可以看到命令 git arc
Laravel 中的 Repositories 有什么优势?它似乎是从应用程序的业务逻辑中抽象出模型层。虽然这似乎只是让整个请求生命周期变得更加复杂,但收效甚微。 有人可以阐明 Laravel 存储库
我有一个本地 git 服务器在我的 NAS 上运行,我正在我的笔记本电脑和工作站上进行开发,所有这些都在我的本地网络中。所以,如果我想在一个新的空 repo 中开始一个项目,我会关注 this ans
我们正在使用 SVN 来存储 maven 依赖项(组织限制不能像现在那样使用 nexus 或 artifactory maven 存储库)。 SVN 在使用 https 协议(protocol)的网络
我想允许某人查看我在我的私有(private)存储库中所做的工作。我该怎么做? 我看了https://help.github.com/articles/making-a-private-reposit
我试图阻止同事在 git 中再次推送已删除的标签(因为它被错误地推送了一次)。 我知道如何在本地执行此操作以及如何将其推送到远程以及如何指示我的同事以正确的方式从他们的本地存储库中删除已删除的标签。
我已经使用 url 克隆了一个 friend 的 git repo git 克隆 https://github.com/user/repo_name.git 然后我创建了我的分支,提交并尝试将我的代码
我目前正在我的代理机构安排比赛。我想对开发人员可以使用的模块进行一些管理。 是否可以托管 Play 模块和 Maven 库的镜像存储库并将 play 配置为仅使用这些存储库? 我已阅读此内容 docu
我正在尝试在我的 readme.md 中嵌入图像用于在 GitHub 上显示。我以前在公共(public)存储库中没有遇到任何问题,格式如下: ![header image](https://raw.
我想访问公司内部Artifactory实例上自定义开发的Gradle插件。对于公司内部发生的每一个Gradle构建,我都希望如此。我是否缺少任何东西,或者建议的方法是在每个项目的每个Gradle构建之
我想保留我在 docker hub 帐户中使用的图像,同时保持对拉取图像的引用。就像你在 github 上 fork 一个项目一样。 目前我已经尝试过jwilder/nginx-proxy图片。现在我
Perforce 中是否有命令可以获取客户端从软件仓库映射到特定文件夹的信息? 示例: 我有仓库位置//depot/myfolder/somefile.java 我想知道哪些客户端将此位置映射到哪个路
我被指派为一个项目开发一项功能。在几周的时间里,我将花几天时间研究该功能。我将克隆中央仓库。然后我将在本地工作 3 周。在此过程中,我会多次将我的进度提交到我的 repo 协议(protocol)中。
我发现自己越来越喜欢将Rstudio与R markdown文件(.rmd)一起使用,并且我非常喜欢“编织HTML +发布到Rpubs”的便利与同事共享我的工作。不幸的是,发布的文件必须是公开可见的,而
我是一名优秀的程序员,十分优秀!