gpt4 book ai didi

hadoop - 如何将impala查询输出上传到hdfs “directly”(在impala shell上)?

转载 作者:行者123 更新时间:2023-12-02 20:14:58 24 4
gpt4 key购买 nike

我想将Impala查询的结果上传到hdfs。我通过Impala shell执行查询:

impala-shell -B --output_delimiter=',' -o result.txt -q " select *
from my_table
where my_conditions"
...它在本地存储 result.txt,然后将该文本文件上传到hdfs。
但是我发现文本文件太大,给系统带来很大压力(例如磁盘I / O)。
所以我试图用bash脚本将查询结果存储在某个变量中,但是出现了错误:
xrealloc: cannot allocate #######bytes ( ####bytes allocated) command result
我认为结果较大是原因。有什么方法可以将查询结果“直接”上传到hdfs?还是有其他解决方案?

最佳答案

正如@ koushik-roy在评论中提到的那样,将结果加载到HDFS的最佳方法是创建另一个Hive表。就像是

impala-shell -q "create table result_table as select * from my_table where my_conditions"
但是,如果只需要“普通文件”,则可以尝试将查询输出管道传递给 HDFS shell put 命令,如下所示:
impala-shell -B --out:put_delimiter=',' -q " select * from my_table where my_conditions" | hadoop fs -put - </your/hdfs/path/for/result>
请注意在shell命令中使用“从标准输入读取输入”选项( -)。

关于hadoop - 如何将impala查询输出上传到hdfs “directly”(在impala shell上)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64441291/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com