gpt4 book ai didi

hadoop - 附加到 ORC 文件

转载 作者:可可西里 更新时间:2023-11-01 14:43:40 26 4
gpt4 key购买 nike

我是大数据和相关技术的新手,所以我不确定我们是否可以将数据附加到现有的 ORC 文件中。我正在使用 Java API 编写 ORC 文件当我关闭 Writer 时,我无法再次打开文件来写入新内容,基本上是附加新数据。

有没有办法可以使用 Java Api 或 Hive 或任何其他方式将数据附加到现有的 ORC 文件?

再说明一下,将Java util.Date对象保存到ORC文件中时,ORC类型存储为:

struct<timestamp:struct<fasttime:bigint,cdate:struct<cachedyear:int,cachedfixeddatejan1:bigint,cachedfixeddatenextjan1:bigint>>,

对于 java BigDecimal,它是:

<margin:struct<intval:struct<signum:int,mag:struct<>,bitcount:int,bitlength:int,lowestsetbit:int,firstnonzerointnum:int>

这些是否正确,是否有任何相关信息?

最佳答案

2017 年更新

是的,现在你可以了! Hive 为 ACID 提供了新的支持, 但您可以使用附加模式 mode("append")Spark 将数据附加到表中

下面是一个例子

Seq((10, 20)).toDF("a", "b").write.mode("overwrite").saveAsTable("tab1")
Seq((20, 30)).toDF("a", "b").write.mode("append").saveAsTable("tab1")
sql("select * from tab1").show

或者更完整的 ORC 示例 here ;下面摘录:

val command = spark.read.format("jdbc").option("url" .... ).load()
command.write.mode("append").format("orc").option("orc.compression","gzip").save("command.orc")

关于hadoop - 附加到 ORC 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38793170/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com