gpt4 book ai didi

hadoop - 清洁 AWS EMR 以允许重用

转载 作者:可可西里 更新时间:2023-11-01 16:11:00 27 4
gpt4 key购买 nike

我有几项任务要在不共享数据的 AWS EMR 上执行,我想使用同一个 EMR 一个接一个地执行它们。有没有办法将正在运行的 EMR 清理回其初始状态(删除配置单元表,清理所有 HDFS 文件等)避免数据冲突?

我想重用 EMR 有几个原因:

  1. 创建新的 EMR 可能需要 5-10 分钟。
  2. 我的任务是相对较短的时间,20-25 分钟。
  3. 一旦创建了 EMR,您就已经为整个小时付费了。

最佳答案

我们没有找到“快速而干净”的 API 来实现此行为。相反,我们巩固了一种简单的工作方法,以保证我们可以清理所有数据。

  • 我们使用特定的数据库而不是默认的数据库。
  • 我们将所有内部数据文件放在 HDFS 中的特定位置。

因此每次启动任务时,它首先删除这个特定的数据库(如果存在)并重新创建它并递归删除 HDFS 中特定位置下的所有数据。

关于hadoop - 清洁 AWS EMR 以允许重用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31411380/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com