java - 在Oozie中优化多个Hive QL-6ren

java - 在Oozie中优化多个Hive QL

转载作者：可可西里更新时间：2023-11-01 14:44:30

27

4

我对 hive 不够熟悉，所以我在这里。我们正在使用Oozie将一堆 hive ql作业链接在一起。我的任务是优化已经在我们的生产环境中运行的应用程序。业务合作伙伴不希望它花费超过1.5个小时的时间。我注意到的第一件事是，在一个工作流程中大约有90个oozie Action 。我们还与其他应用程序共享 yarn 队列。这些 Action 的一半是hive2 Action ，并且每个Hive QL Action 仅执行一个HQL语句。有时似乎HiveQL操作之间存在延迟，因为Oozie启动器在队列中等待，然后HiveQL在队列中等待。那是正常的吗？有没有解决的办法。

对于时间敏感的Hive查询:
1)Oozie是正确的工具，应该用于将对时间敏感的HiveQL脚本链接在一起
2)有哪些替代方案(可以使用Java或Python启动并处理HQL之间的流程具有性能优势)吗？
3)HQL本身可以做些什么？ (再次，我是 hive 新手，主要体验MapReduce / Spark和简单的工作流程(少于20个 Action )
4)还有我没有提到的其他性能考量吗？

谢谢，

最佳答案

the Oozie launcher waits in a queue, and then the HiveQL waits in a queue.

Oozie本身不会运行任何内容。它首先启动 启动器-一个虚拟YARN作业(1个AppMaster + 1个Mapper)-仅运行基本命令(“hive”使用Hive CLI胖客户端，“hive2”使用Beeline瘦客户端，Pig CLI，Sqoop) ，Spark Driver，Bash shell等)。然后，该命令可能会产生一系列YARN作业。

请注意，YARN并不了解启动器及其派生作业之间的依赖关系。特别是在“hive2”操作的情况下，因为启动器连接到HiveServer2，而HiveServer2产生了作业!

建议＃1 -Launcher作业需要很少的协调(记住，只有1个Mapper)，因此应将其AppMaster资源设置得较低，以避免占用过多的RAM并因此阻塞队列。您可以使用(遗憾的是未记录) Action 属性 oozie.launcher.yarn.app.mapreduce.am.resource.mb(总RAM)和 oozie.launcher.yarn.app.mapreduce.am.command-opts(带有“-Xmx”参数的Java堆大小的显式配额，通常为80％RAM)-太低，而出现OutOfMemory错误，从而覆盖默认设置，太高，YARN可能会因配额滥用而杀死您的容器)

建议＃2 -对于“hive2”，启动器作业也需要很少的资源(Beeline是一个瘦JDBC客户端)，所以等等 oozie.launcher.mapreduce.map.memory.mb和 oozie.launcher.mapreduce.map.java.opts等等。

建议＃3 -如果您可以访问优先级较高的YARN队列(由Biswajit Nayak建议)，则将其与 oozie.launcher.mapreduce.job.queuename一起用于启动器。对于实际的Hive查询，取决于:

仅带有“ hive ”，您也可以在Oozie中设置mapreduce.job.queuename Action

带有“hive”或“hive2”的

，您可以在HQL脚本

的顶部插入命令

set
mapreduce.job.queuename = *** ;

建议＃4 -如果您的Hive查询的默认AM资源似乎过大，您也可以尝试调整它们的大小

仅带有“ hive ”，您可以设置yarn.app.mapreduce.am.resource.mb和
Oozie Action 中的yarn.app.mapreduce.am.command-opts-或可能
使用时的tez.am.resource.memory.mb和tez.am.launch.cmd-optsTEZ

带有“hive”或“hive2”的

，您可以在顶部插入命令等等等等
HQL脚本

注意＃1-2-4:您不能要求的请求数不超过 yarn.scheduler.minimum-allocation-mb(并且它是为ResourceManager服务设置的，不能在每个工作的基础上覆盖该请求)。

Are there any other performance considerations

建议＃5 -如果可以在同一HQL脚本中链接某些步骤，则它将减少Oozie轮询YARN来检测第一个查询结束，然后启动另一个Launcher，然后启动Launcher发起另一个Hive session 的开销。当然，在发生错误的情况下，将无法细化执行控制，并且可能需要在重新启动之前进行一些手动清理。

建议＃6 -如果可以并行执行一些步骤，并且您实际上有足够的YARN资源可以并行运行它们，然后将它们放在Oozie Fork / Join的不同分支中(如Biswajit Nayak所建议)。

建议＃7 -如果您尚未使用TEZ，请尝试一下。为您的集群找到一套不错的参数可能很棘手，但是当它工作时，它在许多情况下比MapReduce效率更高(例如，它将相同的YARN容器重新用于Map和Reduce步骤，甚至用于后续查询-更少的YARN开销，更少的中间磁盘I / O等)

~~~~~~~~~

顺便说一句，您是否看到在某些地方使用较旧的“配置单元”操作的充分理由？也许有强制“本地模式”的选项，即跳过YARN并在启动器内运行小的查询而没有额外的开销？还是他们想要详细的日志？

关于java - 在Oozie中优化多个Hive QL，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35538621/

27

4

0

文章推荐： javascript - 每个不封装 block

文章推荐： windows - 从 Windows 命令提示符复制到剪贴板的简单方法

文章推荐： windows - 在 Windows 上运行的 iPad 开发工具？

apache - Oozie 准备 war 错误首先停止 oozie [Oozie v4.3]
我正在尝试将 Oozie 数据库从 derby 迁移到 MySql。一切都运行良好，除非我尝试运行命令 ./oozie-setup.sh prepare-war 出现以下错误 setting CA
oozie - 如何在不重新启动工作的情况下重新安排 OOZIE 中的协调员工作？
当我在 oozie 的 job.properties 中更改协调员作业的开始时间时，该作业不会采用更改后的时间，而是在旧的计划时间运行。旧的job.properties: startMinute=0
oozie - 有没有办法让 Oozie 杀死所有作业？
我已经尝试过 oozie job -oozie http://sandbox.hortonworks.com:11000/oozie -config ./job.properties -kill *
oozie - 无法终止或暂停 oozie 协调员工作
当我尝试终止或暂停时，我在用户“runner”下提交了 oozie 协调员作业，我收到以下错误消息: [runner@hadooptools ~]$ oozie job -oozie http
oozie - 如何在 oozie 中自动重新运行失败的操作？
如何自动重新运行工作流中失败的任何操作？我知道从命令行或彻底的色调手动重新运行的方法。 $oozie job -rerun ... 我们可以在工作流中设置或提供任何参数以在操作失败时自动重试吗？最
hadoop - oozie 不允许冒充 oozie
我对 oozie 有点陌生。我在我的服务器上安装了(使用 cdh 存储库)oozie(我遵循了 CDH4 文档 [我的 hadoop 在 cdh4 中运行])。我已使用以下信息更新我的 core-s
hadoop - Oozie:oozie 是否生成输出事件？
在 oozie 中，input-events 非常简单，如果指定的文件/文件夹不存在，协调器作业将保持在 WAITING 状态。但我无法理解 output-events 的作用。根据我的理解，在 o
oozie - Oozie 中的 START_MANUAL 状态代码是什么意思？
我有一个 java 操作已暂停 5 天，处于此状态，我不知道 oozie 要我做什么。有什么想法吗？最佳答案这意味着有一个错误。如果您配置了重试，则可能会多次重试。配置重试后，在第一个错误之后，作
oozie - 如何在工作流中获取 oozie 协调器 ID？
我的要求是在任何工作流操作失败的情况下终止或停止启动工作流的协调器。 wf:id 给出工作流的 ID。协调有没有这样的功能？？如果没有，请提出将坐标传递给工作流的方法。最佳答案您可以在协调器中
oozie - 避免在 Oozie Coordinator 中指定结束时间
在我的 oozie coordinator.xml 中，我不想指定结束时间。有没有办法做到这一点。 coordinator.xml hdfs://l
oozie - 运行 Oozie Workflow 出现错误 : E0732
我在 Oozie 3.3.2 上运行 oozie 工作流时出现以下错误 Error: E0732 : E0732: Fork /Join[join1]不是成对的(join 应该是 [join2]) 现
oozie - 如何使用 oozie 安排 sqoop 操作
我是 Oozie 的新手，只是想知道 - 如何使用 Oozie 安排 sqoop 作业。我知道可以将 sqoop 操作添加为 Oozie 工作流程的一部分。但是我怎样才能安排一个 sqoop 操作并让
oozie - 使用 Oozie 运行 shell 脚本
我正在尝试运行 sh通过 Oozie 编写脚本，但我面临一个问题: Cannot run program "script.sh" (in directory "/mapred/local/taskTr
oozie - Oozie HDFS 操作可以使用文件模式或 glob 吗？
我可以在 Oozie 移动操作中使用通配符(例如 *)或文件模式(例如 {})吗？我正在尝试将我的工作结果移动到存档目录中。目录结构状态: output - 201304 - 201305 a
oozie - 如何在 oozie 工作流 xml 中创建可选的命令行参数
请记住，我是 oozie 的完全新手。我知道可以使用 arg 标签在 oozie 工作流 xml 中指定命令行参数。我想知道如何指定一个可选的命令行参数，以便 oozie 不会提示如果用户没有指定缺少
oozie - 使用 Hue 创建没有结束日期的 Oozie 协调器
我可以使用 Hue 创建一个不会过期(没有结束日期)的无限 Oozie 协调器吗？请帮忙! 最佳答案没有。您不能创建一个永不过期的协调器。这是 Oozie Coordinator xsd引用:
hadoop - Oozie 安装 - oozied.sh 启动时出错
我是 Oozie 的新手，我正在尝试安装和设置 Oozie。我按照 Apache 站点上提供的说明进行操作:“http://oozie.apache.org/docs/3.3.2/DG_QuickSt
apache - 如何在不重新启动 oozie 作业的情况下重新加载 oozie 作业配置文件
我想知道是否有一种方法可以在不重启 oozie 作业(协调器)的情况下重新加载 oozie 作业的配置文件。因为协调器实际上运行着我们的许多任务，所以有时我们可能只需要更改作业配置文件的一行，然后进
oozie - 哪个是 HADOOP 的最佳调度程序。 oozie 还是 cron？
任何人都可以建议哪个最适合 Hadoop 的调度程序。如果是奥兹。 oozie 与 cron 工作有何不同。最佳答案 Oozie 是最好的选择。 Oozie Coordinator 允许在文件到达
oozie - 如何添加存储在 oozie 项目的 ./lib 文件夹之外的 jar 文件？
我正在编写一个 oozie java 操作，它在作业 ./lib 文件夹中的 jar 文件中包含我的自定义代码。我还想在我的工作外部的文件夹中添加一个 jar 到类路径中(即 /home/me/ot

首页

博学

6Ren·AI

商城

java - 在Oozie中优化多个Hive QL