gpt4 book ai didi

hadoop - netezza 是如何工作的?它与 Hadoop 相比如何?

转载 作者:可可西里 更新时间:2023-11-01 14:16:01 24 4
gpt4 key购买 nike

想要了解 NetezzaHadoop 是否是以下目的的正确选择:

  • 从多个大小有时超过 GB 的在线资源中提取 feed 文件。

  • 清理、过滤、转换和计算来自提要的更多信息。

  • 生成不同维度的指标,类似于数据仓库立方体的做法,并且

  • 使用 SQL 或任何其他标准机制帮助网络应用更快地访问最终数据/指标。

最佳答案

工作原理:
当数据加载到设备中时,它会智能地将 108 个 SPU 中的每个表分开。
通常,硬盘是计算机中速度最慢的部分。想象一下,其中 108 个同时旋转起来,加载一个小一 block 表。这就是 Netezza 如何实现每小时 500 GB 的加载时间。
在每个SPU(集成电路卡上的计算机)上加载并存储一张表后,每个分析列以获得描述性统计信息,例如最小值和最大值。这些值是存储在 108 个 SPU 中的每一个上,而不是索引,后者需要时间来创建、更新和占用不必要的空间。
想象一下您的环境无需创建索引。当需要查询数据时,设备内部的主计算机会查询 SPU 以查看哪个那些包含所需的数据。
只有包含适当数据的SPU返回信息,因此更少的信息通过网络移动到商业智能/分析服务器。对于加入数据,它变得更好。
Appliance 跨多个 SPU 分布多个表中的数据通过一把 key 。每个 SPU 包含多个表的部分数据。它在每个 SPU 上本地连接每个表的部分只返回本地结果。所有“本地结果”都在机柜内部组装,然后作为查询结果返回到商业智能/分析服务器。这种方法也有助于到速度的故事。
所有这一切的关键是“减少网络中的数据移动”。 Appliance 只返回数据需要通过组织的 1000/100 MB 网络返回到商业智能/分析服务器。
这与商业智能/分析软件通常使用的传统处理方式截然不同从数据库中提取大部分数据,在自己的服务器上进行处理。数据库做的确定所需的数据,将较小的子集结果返回给商业智能/分析服务器。
备份和冗余
要了解数据和系统是如何为几乎 100% 的正常运行时间设置的,重要的是要了解内部设计。它使用每个 400 GB 磁盘的外部、最快、三分之一的部分用于数据存储和恢复。三分之一的磁盘存储描述性统计数据,另外三分之一存储热数据备份其他 SPU。每个设备机柜还包含 4 个额外的 SPU,用于自动故障转移 108 个中的任何一个SPU。
取自 http://www2.sas.com

关于hadoop - netezza 是如何工作的?它与 Hadoop 相比如何?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4553712/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com