gpt4 book ai didi

hadoop - 在Hive中产生较大结果的最佳方法是什么

转载 作者:行者123 更新时间:2023-12-02 20:07:50 24 4
gpt4 key购买 nike

我一直在尝试运行一些Hive查询,但结果集比较大。我的正常方法是通过WebHCat API提交作业,并从生成的stdout文件中读取结果,或者只是在控制台上运行配置单元并将其stdout传递到文件中。但是,如果结果较大(使用了多个以上的reducer),则stdout为空白或被截断。

我当前的解决方案是从结果CREATE TABLE FROM SELECT创建一个新表,该表引入了一个额外的步骤,如果我不想保留结果集,请将该表留待以后清理。

有没有人有更好的方法来捕获此类Hive查询的所有结果?

最佳答案

您可以将数据直接写到hdfs或本地文件系统上的目录中,然后对文件进行所需的操作。例如,要生成CSV文件:

INSERT OVERWRITE DIRECTORY '/hive/output/folder'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS TEXTFILE
SELECT ... FROM ...;

这本质上与 CREATE TABLE FROM SELECT相同,但是您不必清理表。这是完整的文档:

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Writingdataintothefilesystemfromqueries

关于hadoop - 在Hive中产生较大结果的最佳方法是什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20709756/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com