apache-spark - Tez 上的 Hive 在 Spark 2 中不起作用-6ren

apache-spark - Tez 上的 Hive 在 Spark 2 中不起作用

转载作者：行者123 更新时间：2023-12-04 05:27:06

26

4

当使用带有 spark 1.6.2 的 HDP 2.5 时，我们使用带有 Tez 的 Hive 作为其执行引擎并且它工作正常。

但是当我们使用 spark 2.1.0 迁移到 HDP 2.6 时，Hive 无法使用 Tez 作为其执行引擎，并且在 DataFrame.saveAsTable 时抛出以下异常API 被调用:

java.lang.NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:529) at org.apache.spark.sql.hive.client.HiveClientImpl.<init> HiveClientImpl.scala:188)

在查看 this 的答案后问题，我们将 Hive 执行引擎切换为 MR(MapReduce)而不是 Tez，并且它有效。

但是，我们希望在 Tez 上使用 Hive。为了让 Hive on Tez 正常工作，解决上述异常需要什么？

最佳答案

当 spark 作业在 YARN CLUSTER 模式下运行时，我遇到了同样的问题，并且在将正确的 hive-site.xml 添加到(添加到 spark-default 配置)“spark.yarn.dist.files”

基本上有两个不同的 hive-site.xml 文件，一个用于配置单元配置:/usr/hdp/current/hive-client/conf/hive-site.xml另一个是 spark 的较轻版本(只有 spark 与 hive 一起使用的详细信息):/etc/spark//0/hive-site.xml(请检查一次路径以进行设置)

我们需要为 spark.yarn.dist.files 使用第二个文件。

关于apache-spark - Tez 上的 Hive 在 Spark 2 中不起作用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43757969/

26

4

0

文章推荐： visual-c++ - 使用带有/MT 标志的 MSVC 编译 jrtplib

文章推荐： Matlab 3D 体积可视化 - dicom 文件

hadoop - hive.tez.container.size 和 tez.task.resource.memory.mb 之间的区别
有人知道并向我解释 Tez 的这些设置之间的区别吗？ hive.tez.container.size 和 tez.task.resource.memory.mb 谢谢。最佳答案 hive.tez.c
hadoop - 如何在本地运行Apache Tez？
除了与hadoop集成外，人可以执行tez的方法之一是在本地模式下。为了在本地运行我阅读了this page并了解了必须进行的更改，并更新了tez-site.xml配置。但是我不知道如何开始。我尝
hadoop - TEZ 作为工作级别的执行
如何有选择地将TEZ设置为PIG作业的执行引擎？我们可以在pig.properties中设置执行引擎，但它在集群中会影响集群的所有作业。最佳答案如果作业是通过 Templeton 提交的，这是可
hadoop - 关于输入分割长度的 Tez 容器大小估计
因此 - 当 Tez 选择要运行的映射器数量时，它会查看可以并行运行的容器数量(可用插槽)、波动因子、数据的机架位置、FileInputFormat 最大拆分大小、Tez 最大分组大小，可以拆分的 s
java - 不同用户提交时 Tez 作业失败
已配置具有 Kerberos 安全性的 Hadoop-2.6.0 HA 集群。在来自不同用户的 yarn-tez 框架中使用 tez-example-0.6.0.jar 提交示例作业时，出现以下异常
hadoop - 在配置单元中执行查询时显示 Tez 顶点错误
谁能解释一下使用 Tez 执行引擎时 Hive 中的 VERTEX_FAILURE 错误是什么？还有它的根本原因是什么？最佳答案这个错误是因为 Tez 容器没有分配足够的内存来运行查询。解决方案
hadoop - 纱容器尺寸和 Tez 容器管理
我有一个集群，其中包含大约 15 TB 的 yarn 资源。我正在尝试通过 Hive 提交查询。我在 yarn 上的默认容器大小是 4GB。为该查询分配的映射器数量约为 1000。我的 yarn 队列
hadoop - 有了Hive TEZ，Hive的LLAP有什么用？
在我们的项目中，我们将数据从 Greenplum 数据库加载到 HDFS (HIVE)。最近，我了解到 Hive2 有一个新的包，“LLAP”。我一直对 LLAP 的概念感到困惑。LLAP 的具体用途
hadoop - 如何增加 Tez 的容器物理内存？
我一直在使用 hive 1.0 和 tez 0.8 的 aws emr 4.8 集群上运行一些 hive 脚本。我的配置是这样的: SET hive.exec.compress.output=tru
hadoop - Apache Tez 构建失败
我正在尝试使用以下命令在 Windows 中为 hadoop-2.6.0 构建 Apache Tez(0.6.1 和 0.7.0 版本) mvn clean package -Dhadoop.vers
hadoop - Apache Tez 架构说明
我想看看是什么让 Apache Tez 和 Hive 比 map reduce 和 hive 快得多。我无法理解 DAG 概念。对于理解 Apache TEZ 的架构，任何人都有很好的引用。最佳答
hadoop - 带有查询的位置 Hive 日志 (Tez)
最近我从 Hadoop 1.0 迁移到 Hadoop 2.0。现在 Hive 在 Tez 上执行，我找不到包含查询的日志。我可以访问聚合日志:yarn logs -applicationId app
hadoop - 无法在 Apache Tez 上运行
感谢您详细发布此内容以及屏幕截图。我已按照您提到的相同步骤进行操作，但我无法正确安装。我遇到的错误是错误:无法找到或加载主类 org.apache.tez.dag.app.DAGAppMaster
hadoop - tez/hive 中的 OOM
[经过一些回答和评论后，我根据此处获得的知识提出了一个新问题:Out of memory in Hive/tez with LATERAL VIEW json_tuple ] 我的一个查询始终因错误而
hadoop - 使用 Tez 执行引擎将文件系统添加到 Hive
在使用 Tez 执行引擎针对外部 ORC 表执行查询时，我收到以下错误: Vertex failed, vertexName=Map 6, vertexId=vertex_1504790331090_
hadoop - 为了加快配置单元进程，如何使用 tez 调整映射器和缩减器数量
我尝试使用 tez 处理大数据(约 150GB)的过程(句子的单词标签)，但问题是它花了很多时间(1 周或更多)，然后我试图指定映射器的数量。虽然我设置了 mapred.map.tasks =200
hadoop - 使用 Hive、Tez 和偏移量执行查询
我正在尝试在试图排除特定记录的配置单元中执行偏移量查询，但总是收到以下错误: 查询: select * from sample order by id limit 1 OFFSET 1; 错误: F
hadoop - Hive 查询在 Tez 上无限运行
下面是我尝试在 Hive 上运行的查询，执行引擎为 tez。 SELECT A.CITY, A.NAME, B.PRICE ,(ROW_NUMBER() OVER (PARTITION BY A.
hadoop - 使用 Tez 的 MapReduce
我正在创建一个验证工具来检查 Apache Tez 是否在 Hadoop 的 hortonworks 发行版中工作，为此我需要检查一个简单的 map reduce 程序是否正在 Tez 上执行，我可以
hadoop - Hive Tez reducer 运行速度超慢
我加入了多个表，总行数约为 250 亿行。最重要的是，我正在做聚合。下面是我的配置单元设置，我用它来生成最终输出。我不太确定如何调整查询并使其运行得更快。目前，我正在反复试验，看看是否能产生一些结果，

首页

博学

6Ren·AI

商城

apache-spark - Tez 上的 Hive 在 Spark 2 中不起作用