gpt4 book ai didi

apache-spark - 如何使用spark将avro写入多个输出目录

转载 作者:行者123 更新时间:2023-12-04 21:08:06 24 4
gpt4 key购买 nike

嗨,有一个关于使用 MultipleTextOutputFormat 在一个 Spark 作业中将文本数据写入多个输出目录的主题

Write to multiple outputs by key Spark - one Spark job

我会问是否有一些类似的方法可以将 avro 数据写入多个目录

我想要的是将avro文件中的数据写入不同的目录(基于时间戳字段,时间戳中的同一天进入同一目录)

最佳答案

AvroMultipleOutputs类简化了将 Avro 输出数据写入多个输出的过程。

  • 情况一:写入作业默认输出以外的其他输出。每个额外的输出,或命名的输出,可以配置有自己的模式和输出格式。
  • 案例二:将数据写入用户提供的不同文件
  • AvroMultipleOutputs支持计数器,默认情况下它们是禁用的。计数器组是 AvroMultipleOutputs类(class)名称。计数器的名称与输出名称相同。这些计算写入每个输出名称的记录数。

    也看看
  • MultipleOutputer
  • MultipleOutputsFormatTest (在此处查看带有单元测试用例的代码示例... For some reason MultipleOutputs does not work with Avro, but the near-identical AvroMultipleOutputs does. These obviously related classes have no common ancestor so they are combined under the MultipleOutputer type class which at least allows for future extension.)
  • 关于apache-spark - 如何使用spark将avro写入多个输出目录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40798008/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com