gpt4 book ai didi

hadoop - 评估和比较 Hadoop 的商业智能设计注意事项

转载 作者:可可西里 更新时间:2023-11-01 14:46:11 26 4
gpt4 key购买 nike

我正在考虑用于数据仓库和商业智能的各种技术,并且想到了这个名为 Hadoop 的激进工具。 Hadoop 似乎并不完全是为 BI 目的而构建的,但有一些引用资料表明它在该领域具有潜力。 (http://www.infoworld.com/d/data-explosion/hadoop-pitched-business-intelligence-488)。

尽管我从 Internet 获得的信息很少,但我的直觉告诉我,hadoop 可以成为传统 BI 解决方案领域的颠覆性技术。关于这个主题的信息确实很少,因此我想在这里收集所有专家关于 Hadoop 作为 BI 工具的潜力的所有想法,与 Oracle Exadata、vertica 等传统后端 BI 基础架构相比。对于初学者,我想问以下问题 -

  • 设计注意事项 - 使用 Hadoop 设计 BI 解决方案与传统工具有何不同?我知道它应该有所不同,因为我读到不能在 Hadoop 中创建模式。我还读到一个主要优势将是完全消除 Hadoop 的 ETL 工具(这是真的吗?)我们需要 Hadoop + pig + mahout 来获得 BI 解决方案吗??

感谢和问候!

编辑 - 分解为多个问题。将从我认为最有影响力的那个开始。

最佳答案

Hadoop 是成为 BI 解决方案一部分的绝佳工具。它本身不是 BI 解决方案。 Hadoop 所做的是接收 Data_A 并输出 Data_B。 Bi 需要但不是有用形式的任何内容都可以使用 MapReduce 进行处理并输出有用形式的数据。无论是 CSV、HIVE、HBase、MSSQL 还是用于查看数据的任何其他内容。

我认为 Hadoop 应该是 ETL 工具。这就是我们使用它的目的。我们每小时处理数以千计的日志文件并将其存储在 Hive 中,每天进行汇总,这些汇总会加载到 MSSQL 服务器并通过可视化层查看。

我遇到的主要设计注意事项是:
- 数据灵 active :您是希望您的用户查看预先聚合的数据,还是可以灵活地调整查询并按照他们想要的方式查看数据
- 速度:您希望用户等待数据多长时间? Hive(例如)很慢。生成结果需要几分钟,即使是在相当小的数据集上也是如此。遍历的数据越大,生成结果所需的时间就越长。
- 可视化:您想使用哪种类型的可视化?您想定制很多件还是能够使用现成的东西?您的可视化需要哪些限制和灵 active ?可视化需要多灵活多变?

第一个

更新:作为对@Bhat 关于缺乏可视化的评论的回应...
缺乏使我们能够有效利用存储在 HBase 中的数据的可视化工具是重新评估我们的解决方案的一个主要因素。我们将原始数据存储在 Hive 中,并将数据预先聚合并存储在 HBase 中。为了利用这一点,我们将不得不编写一个自定义连接器(完成这一部分)和可视化层。我们研究了我们能够生产什么以及什么可以在市场上买到,然后走商业路线。
我们仍然使用 Hadoop 作为我们的 ETL 工具来处理我们的网络日志,这非常棒。我们只是将 ETL 的原始数据发送到商业大数据数据库,该数据库将在我们的设计中取代 Hive 和 HBase。

Hadoop 并不能真正与 MSSQL 或其他数据仓库存储进行比较。 Hadoop 不做任何存储(忽略 HDFS),它做数据处理。运行 MapReduces(Hive 执行)将比 MSSQL(或类似的)慢。

关于hadoop - 评估和比较 Hadoop 的商业智能设计注意事项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6395495/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com