gpt4 book ai didi

apache-spark - Spark + 写入 Hive 表 + 解决方法

转载 作者:行者123 更新时间:2023-12-02 20:19:24 24 4
gpt4 key购买 nike

我试图了解我在工作空间中经常听到的一种方法的优缺点。

Spark 在将数据写入 Hive 表 (InsertInto) 时执行以下操作

  • 写入暂存文件夹
  • 使用输出提交器将数据移动到配置单元表。

  • 现在我看到人们提示上述两步方法很耗时,因此求助于
        1) Write files directly to HDFS

    2) Refresh metastore for Hive

    我看到人们报告说这种方法有了很大的改进。

    但不知何故,我还不相信这是安全且正确的方法。这不是 Automity 的权衡吗? (全表写入或不写入)

    如果正在向 HDFS 写入文件的执行程序崩溃了怎么办?我看不到完全恢复一半完成的写入的方法。

    我还认为,如果这是正确的做法,Spark 会这样做,不是吗?

    我的问题有效吗?您认为上述方法有什么好处吗?请给出意见。

    最佳答案

    在 hive v3 中,这不是 100% 正确的原因,您只能使用 hive 驱动程序访问 hive 数据,以免破坏新的事务机器。

    即使您使用的是 hive2,您至少应该记住,一旦升级,您将无法直接访问数据。

    关于apache-spark - Spark + 写入 Hive 表 + 解决方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61382141/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com