gpt4 book ai didi

hadoop - Hadoop应用程序中Avro的用例

转载 作者:行者123 更新时间:2023-12-02 21:35:21 26 4
gpt4 key购买 nike

我是hadoop和mapreduce框架的新手。我正在经历一些序列化格式。其中之一就是Avro。这似乎是非常有效和紧凑的格式。

现在让我们说我在HDFS中有一些文本数据,通常我编写mapreduce作业来读取该数据并生成输出(或者我可以运行配置单元查询)。

我想知道何时在我的自定义应用程序中使用它
(mapreduce工作或 hive )?从那时起,在实际应用程序中(数据提取/处理),avro将会出现。

最佳答案

Avro由Doug Cutting创建。这是一种以二进制格式存储数据的有效方法。这类似于hadoop中的sequenceFile。它支持压缩块。每个文件都包含一个json模式。这种模式可以发展并向后兼容。 Hive,Impala和其他产品都喜欢这种格式。随着性能的提高,它很受欢迎。 Parquet 文件也变得越来越流行。

关于hadoop - Hadoop应用程序中Avro的用例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32723492/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com