gpt4 book ai didi

hadoop - 在运行时为序列文件创建Value类

转载 作者:行者123 更新时间:2023-12-02 21:58:25 24 4
gpt4 key购买 nike

我必须将某些类型的数据作为序列文件上传到HDFS上。

最初,我曾想过根据架构的类型在运行时创建.jr文件,并使用Hadoop的rcc DDL工具创建这些类并使用它们。

但是查看rcc文档,我发现它已被弃用。我试图查看每种数据类型还需要创建这些值类的其他选项。

这是一个问题,因为我知道要在运行时与数据流一起加载的数据的元数据。因此,我别无选择,只能在运行时创建Value类,然后将其用于将(键,值)写入SequenceFile.Writer,最后将其保存在HDFS上。

这个问题有什么解决办法吗?

最佳答案

您可以尝试查找其他序列化框架,例如Protocol BuffersThriftAvro。您可能需要先看一下Avro,因为它不需要静态代码生成,这可能更适合您。

或者,如果您想要真正快速又脏的东西,SequenceFile中的每个记录都可以是HashMap,其中键/值是字段的名称和值。

关于hadoop - 在运行时为序列文件创建Value类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5279831/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com