gpt4 book ai didi

hadoop - 在Hive更新期间HDFS中发生了什么(真的)?

转载 作者:可可西里 更新时间:2023-11-01 15:49:01 28 4
gpt4 key购买 nike

情况如下:
已知hdfs是仅附加的(本身没有更新)。
配置单元将数据写入其位于hdfs中的仓库。
可以在配置单元中执行更新
这意味着写入了新数据,旧数据应该以某种方式标记为已弃用,然后在某个时间将其清除。
我搜索了一下,但到目前为止没有找到任何有关这方面的信息。

最佳答案

表的数据存储在一组基本文件中。新记录、更新和删除存储在增量文件中。
为每个更改表的事务创建一组新的增量文件。在读取时,读取器合并基文件和增量文件,在读取时应用任何更新和删除。
随后,主压缩按周期性时间间隔将较大的增量文件和/或基文件合并到另一个基文件中,这将加快进一步的表扫描操作。
以下文档支持这一点:
https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions
希望这有帮助。

关于hadoop - 在Hive更新期间HDFS中发生了什么(真的)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52984787/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com