gpt4 book ai didi

sql - 有没有一种方法可以在插入操作时检查在Hive表中插入了多少行?

转载 作者:行者123 更新时间:2023-12-02 20:44:05 25 4
gpt4 key购买 nike

在hive表中执行插入操作时,所有数据都正确插入,但是我需要知道在发生某些网络问题时是否要在hive表中插入1000条记录,因此该作业将失败,然后hive作业已停止并记录了500条记录,所以我又需要开始同样的配置工作以进行插入,因为在这种情况下,我认为是重复的,所以如何避免这种重复的插入,而我需要在当前工作中获取最后的插入记录行,有人知道吗让我知道。如何归档这种情况对我会有所帮助。谢谢。

How to delete duplicate records from Hive table?



对于此链接,将说明如何在插入后删除重复记录,我不想这样做,也不想存储其他重复表。

最佳答案

hive 作业将转换为MR作业。
在插入操作期间,Hive会

  • 将数据写入登台目录(不是目标目录)
  • 将所有内容从登台目录移到目标目录

  • 因此,通常您不必担心这一点,并且如果插入操作失败了一半,那么就不会有重复的数据,因为在整个作业成功之前,它们位于 登台目录中。

    如果要获取多少行,请运行
    select count(*) from $table;

    通常,配置单元将保存用于DML操作的元数据,因此通常,此配置单元将立即返回而无需增加额外的MR作业。

    关于sql - 有没有一种方法可以在插入操作时检查在Hive表中插入了多少行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48725604/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com