gpt4 book ai didi

azure - Hadoop future 大数据分析的数据格式

转载 作者:行者123 更新时间:2023-12-02 21:59:50 28 4
gpt4 key购买 nike

在阅读了一些或多或少适合使用Hadoop的各种数据格式后,似乎Apache Avro似乎是一个不错的选择,因为它是可拆分的容器格式。

因此,可以存储在HDFS中的Avro文件看起来可能像这样:

{
Header
Message1
Message2
Message3
....
}

(这些消息代表来自物联网设备的一些原始数据)

Hadoop随后将能够在不同节点上并行处理Message1-3(至少这是我想象的方式)

现在我的问题是:我可以为这些消息使用任何格式,甚至是不可拆分的消息吗? Protobuf还是对消息本身使用Avro(可拆分)仍然有意义?这样做有什么好处吗?
你有什么经验?

编辑:目前尚无关于从原始数据中获得哪些见解的具体方案。该系统应该立即存储原始数据,而分析可能需要一两年的时间。我只想有一个将来可以使用的解决方案。

最佳答案

Avro格式以JSON格式存储数据模式,因此,根据键值对和数据的实际存储,它们将它们存储为序列化的原始二进制格式。因此,就工作而言,如果您的应用程序需要具有可拆分和序列化存储要求的大型数据集,那么avro会随之而来。如果您的应用程序需要更多的统计计算,则可以选择ORC2或 Parquet 。请详细说明您的用例,以根据您的要求进行回答。

关于azure - Hadoop future 大数据分析的数据格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40676528/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com