gpt4 book ai didi

hadoop - 为什么我的 pig 作业中我的 avro 输出文件如此之小而如此之多?

转载 作者:可可西里 更新时间:2023-11-01 16:14:16 24 4
gpt4 key购买 nike

我正在运行一个执行一系列连接并使用 AvroStorage() 编写的 pig 脚本

一切运行良好,我得到了我想要的数据……但它被写入了 845 个 avro 文件(每个约 30kb)。这似乎根本不对......但我似乎找不到任何我可能已经更改的设置,从我以前的 1 大 avro 输出到 845 小 avros(除了添加另一个数据源)。

这会改变什么吗?我怎样才能把它恢复到一个或两个文件?

谢谢!

最佳答案

一种可能性是更改您的 block 大小。如果你想回到less文件,你也可以尝试使用parquet。通过 pig 脚本转换您的 .avro 文件并将其存储为 .parquet 文件,这将减少您的 845 文件。

但除了性能优势外,没有必要恢复到更少的文件。

关于hadoop - 为什么我的 pig 作业中我的 avro 输出文件如此之小而如此之多?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25255380/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com