gpt4 book ai didi

hadoop - 使用 Hive 更新/编辑 Hdfs 中的记录

转载 作者:可可西里 更新时间:2023-11-01 15:21:24 24 4
gpt4 key购买 nike

我在HDFS中有一些人的记录。我在 Hive 中使用外部表来查看和分析该特定数据,我也可以在其他程序中外部使用它。

最近我有一个用例,我必须更新 HDFS 中的数据。根据文档,我了解到我们无法使用外部表更新或删除数据。

另一个问题是数据不是ORC格式。它实际上是 TEXTFILE 格式。所以我也无法更新或删除内部表中的数据。由于它正在生产中,我无法将其复制到任何地方以将其转换为 ORC 格式。请建议我如何在 HDFS 中编辑数据。

最佳答案

您可以使用 INSERT OVERWRITE 更新或删除 + 使用过滤器和其他转换从自身中选择:

insert overwrite table mytable
select col1, --apply transformations here
col2, --for example: case when col2=something then something_else else col2 end as col2
...
colN
from mytable
where ... filter out records you want to delete

此方法适用于外部和托管以及所有存储格式。只需编写返回所需数据集的选择并添加 INSERT OVERWRITE。

关于hadoop - 使用 Hive 更新/编辑 Hdfs 中的记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52639522/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com