gpt4 book ai didi

hadoop - 使用 avro-tools 连接 Avro 文件

转载 作者:可可西里 更新时间:2023-11-01 14:14:40 27 4
gpt4 key购买 nike

我试图将 avro 文件合并成一个大文件,问题是 concat 命令不接受通配符

hadoop jar avro-tools.jar concat /input/part* /output/bigfile.avro

我得到:

Exception in thread "main" java.io.FileNotFoundException: File does not exist: /input/part*

我尝试使用 ""'' 但没有机会。

最佳答案

我很快检查了 Avro 的源代码 (1.7.7),似乎 concat 不支持 glob 模式(基本上,除了最后一个参数之外,它们对每个参数调用 FileSystem.open())。

这意味着您必须明确提供所有文件名作为参数。这很麻烦,但下面的命令应该做你想做的:

IN=$(hadoop fs -ls /input/part* | awk '{printf "%s ", $NF}')
hadoop jar avro-tools.jar concat ${IN} /output/bigfile.avro

为该命令添加对 glob 模式的支持将是一个很好的补充。

关于hadoop - 使用 avro-tools 连接 Avro 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34856838/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com