gpt4 book ai didi

apache-spark - Spark Structured Streaming 写入流到 Hive ORC 分区的外部表

转载 作者:行者123 更新时间:2023-12-04 21:30:54 26 4
gpt4 key购买 nike

我正在尝试使用 Spark 结构化流 - writeStream用于写入外部分区 Hive 表的 API。

CREATE EXTERNAL TABLE `XX`(
`a` string,
`b` string,
`b` string,
`happened` timestamp,
`processed` timestamp,
`d` string,
`e` string,
`f` string )
PARTITIONED BY (
`year` int, `month` int, `day` int)
CLUSTERED BY (d)
INTO 6 BUCKETS
STORED AS ORC
TBLPROPERTIES (
'orc.compress'='ZLIB',
'orc.compression.strategy'='SPEED',
'orc.create.index'='true',
'orc.encoding.strategy'='SPEED');

在 Spark 代码中,

val hiveOrcWriter:   DataStreamWriter[Row] = event_stream
.writeStream
.outputMode("append")
.format("orc")
.partitionBy("year","month","day")
//.option("compression", "zlib")
.option("path", _table_loc)
.option("checkpointLocation", _table_checkpoint)

我看到在非分区表上,记录被插入到 Hive 中。但是,在使用分区表时,spark 作业不会失败或引发异常,但不会将记录插入到 Hive 表中。

感谢任何处理过类似问题的人的评论。

编辑 :

刚刚发现 .orc 文件确实写入了 HDFS,具有正确的分区目录结构:例如。 /_table_loc/_table_name/year/month/day/part-0000-0123123.c000.snappy.orc
然而

select * from 'XX' limit 1; (or where year=2018)

不返回任何行。
InputFormatOutputFormat表 'XX' 是 org.apache.hadoop.hive.ql.io.orc.OrcInputFormatorg.apache.hadoop.hive.ql.io.orc.OrcOutputFormat分别。

最佳答案

在结构化流中,此功能不是开箱即用的。在正常处理中,您将使用 dataset.write.saveAsTable(table_name) ,并且该方法不可用。

在 HDFS 中处理和保存数据后,您可以手动更新分区(或使用按计划执行此操作的脚本):

如果你使用 Hive

MSCK REPAIR TABLE table_name

如果您使用 Impala
ALTER TABLE table_name RECOVER PARTITIONS

关于apache-spark - Spark Structured Streaming 写入流到 Hive ORC 分区的外部表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51804261/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com