gpt4 book ai didi

hadoop - 重复创建和删除配置单元表的影响

转载 作者:行者123 更新时间:2023-12-02 21:17:58 25 4
gpt4 key购买 nike

我有一个用例,需要约200个 hive Parquet 。
我需要从平面文本文件加载这些 Parquet 表。但是我们不能直接从平面文本文件中加载 Parquet 表。
所以我正在使用以下方法

  • 创建一个临时的托管文本表。
  • 使用文本数据加载临时表。
  • 创建外部 Parquet 表。
  • 使用选择查询将 Parquet 表与文本表一起加载。
  • 删除临时文本表的文本文件(但将表保留在metastore中)。

  • 由于这种方法是将临时元数据(用于200个表)保留在metastore中。因此,我有第二种方法是,我还将删除临时文本表以及来自hdfs的文本文件。下次重新创建临时表并在创建 Parquet 后删除。

    现在,由于我需要每2小时对所有200个表执行上述步骤,因此在生产期间从元存储中创建和删除表会影响集群中的任何内容吗?

    哪种方法会影响生产,将临时元数据保留在metastore中,从hive metastore创建和删除表(元数据)?

    最佳答案

    Which approach can impact production, keeping temporary metadata in metastore, creating and deleting tables (metadata) from hive metastore?



    不,没有影响,HiveMetastore的后端应该能够轻松处理每小时200 * n次更改。如果不确定,请从50个表开始,并监视后端数据库性能。

    关于hadoop - 重复创建和删除配置单元表的影响,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38254117/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com