gpt4 book ai didi

hadoop - 如何将 pyspark 输出写入 impala 表?

转载 作者:可可西里 更新时间:2023-11-01 16:37:19 24 4
gpt4 key购买 nike

我将 pyspark 用于我的问题陈述,在这里,我想合并我的输出并将其作为我的其他模型的输入。但是在 hdfs 中,我的输出被分成几部分,因此很难将它们组合起来。

所以我想将输出结果直接存储到impala表中,我该怎么做呢?

最佳答案

要将存储在 HDFS 中的文件内容公开为表,您可以定义一个外部表:

CREATE EXTERNAL TABLE table_name
( column_1 string
, ... )

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE

LOCATION '/some/path/in/hdfs/';

支持不同的文件格式。该示例适用于以制表符作为列分隔符的平面文件。

如果你想改变Spark产生的文件数量,你可以在保存之前用rdd.coalesce改变RDD分区的数量。

关于hadoop - 如何将 pyspark 输出写入 impala 表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49422774/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com