apache-spark - 在 CDH 5 上找不到用于 Spark 的类 com.hadoop.compression.lzo.LzoCodec？-6ren

apache-spark - 在 CDH 5 上找不到用于 Spark 的类 com.hadoop.compression.lzo.LzoCodec？

转载作者：行者123 更新时间：2023-12-04 01:36:25

24

4

我已经在这个问题上工作了两天，仍然没有找到方法。

问题 :我们通过最新的 CDH 5 安装的 Spark 总是提示 LzoCodec 类丢失，即使在我通过 cloudera manager 中的 Parcels 安装 HADOOP_LZO 之后也是如此。 我们在 CDH 5.0.0-1.cdh5.0.0.p0.47 上运行 MR1 .

尝试修复 :
official CDH documentation about 'Using the LZO Parcel中的配置' 也添加了但问题仍然存在。

大多数谷歌搜索的帖子都给出了与上述类似的建议。我还怀疑 Spark 试图与未在那里激活的 YARN 运行；但我在 CMF 或其他有关此主题的帖子中找不到配置。

如果您知道如何处理，请给我一些帮助。

最佳答案

解决了!!愿此解决方案能帮助遇到同样问题的其他人。

在本教程中，我将向您展示如何在 Hadoop、Pig 上启用 LZO 压缩
和 Spark 。我想你已经设置了一个基本的 hadoop 安装
成功(如果没有，请引用 Hadoop installation 的其他教程)。

您到达此页面可能是因为您遇到了同样的问题
正如我所遇到的，通常从 Java 异常开始:

Caused by: java.lang.ClassNotFoundException: Class com.hadoop.compression.lzo.LzoCodec not found.

由于 Apache 和 Cloudera 发行版是最受欢迎的两个发行版
分布，显示了两种上下文的配置。简而言之，三
将采取主要步骤以取得最终成功:

安装 native-lzo图书馆

安装 hadoop-lzo图书馆

正确设置环境变量(正确的部分
消耗我最多的时间)

第一步:安装 native-lzo图书馆

native-lzo library是
安装 hadoop-lzo 所需.您可以手动安装它们
或者通过促进包管理器( 注意: 确保所有节点在
集群有 native-lzo安装。):

在 Mac 操作系统上:

sudo port install lzop lzo2

在 RH 或 CentOS 上:

sudo yum install lzo liblzo-devel

在 Debian 或 ubuntu 上:

sudo apt-get install liblzo2-dev

Step2:安装 hadoop-lzo图书馆

对于 Apache Hadoop

由于 LZO 是 GPL 的，所以它没有随官方 Hadoop 发行版一起提供
需要 Apache 软件许可证。我推荐 Twitter version这是一个 fork 的版本
hadoop-gpl-compression和
显着的改进。如果你运行的是官方的 Hadoop，一些
提供安装结构 the documentation .

对于 Cloudera 分发

在 Cloudera 的 CDH 中， hadoop-lzo作为包裹运送给客户，而您
可以使用 Cloudera Manager 方便地下载和分发它。经过
默认， hadoop-lzo将安装在 /opt/cloudera/parcels/HADOOP_LZO .

在这里，我们展示了集群上的配置:

Cloudera CDH 5

HADOOP_LZO 版本 0.4.15

第三步:设置环境变量

对于 Apache Hadoop/Pig

基本配置适用于 Apache Hadoop，而 Pig 则依赖其
功能。

在 core-site.xml 中设置压缩编解码器库:

<property>
  <name>io.compression.codecs</name>
  <value>org.apache.hadoop.io.compress.GzipCodec,
      org.apache.hadoop.io.compress.DefaultCodec,
      org.apache.hadoop.io.compress.BZip2Codec,
      com.hadoop.compression.lzo.LzoCodec,
      com.hadoop.compression.lzo.LzopCodec
  </value>
</property>
<property>
  <name>io.compression.codec.lzo.class</name>
  <value>com.hadoop.compression.lzo.LzoCodec</value>
</property>

在 mapred-site.xml 中设置 MapReduce 压缩配置:

<property>
  <name>mapred.compress.map.output</name>
  <value>true</value>
</property>
<property>
  <name>mapred.map.output.compression.codec</name>
  <value>com.hadoop.compression.lzo.LzoCodec</value>
</property>
<property>
  <name>mapred.child.env</name>
  <value>JAVA_LIBRARY_PATH=$JAVA_LIBRARY_PATH:/path/to/your/hadoop-lzo/libs/native</value>
</property>

追加 HADOOP_CLASSPATH至 hadoop-env.sh :

HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/opt/cloudera/parcels/CDH/lib/hadoop/lib/*

对于 Cloudera 分发

您可以使用 Cloudera Manager 通过 GUI 启用相同的先前设置
界面:

对于 MapReduce 组件，将对应键的配置更改为
以上:

> **io.compression.codecs**
> **mapred.compress.map.output**
> **mapred.map.output.compression.codec**
> **MapReduce Client safety valve for mapred-site.xml**

编辑 hadoop-env.sh 的 MapReduce 客户端环境片段 附加HADOOP_CLASSPATH多变的。

最后，按照正确的顺序重启依赖服务并部署
所有节点之间的配置。就是这样!!。然后你可以测试
命令的功能并获得类似于以下的成功消息:

   $ hadoop jar /path/to/hadoop-lzo.jar com.hadoop.compression.lzo.LzoIndexer lzo_logs
   $ 14/05/04 01:13:13 INFO lzo.GPLNativeCodeLoader: Loaded native gpl library
   $ 14/05/04 01:13:13 INFO lzo.LzoCodec: Successfully loaded & initialized native-lzo library [hadoop-lzo rev 49753b4b5a029410c3bd91278c360c2241328387]
   $ 14/05/04 01:13:14 INFO lzo.LzoIndexer: [INDEX] LZO Indexing file datasets/lzo_logs size 0.00 GB...
   $ 14/05/04 01:13:14 INFO Configuration.deprecation: hadoop.native.lib is deprecated. Instead, use io.native.lib.available
   $ 14/05/04 01:13:14 INFO lzo.LzoIndexer: Completed LZO Indexing in 0.39 seconds (0.02 MB/s).  Index size is 0.01 KB.

对于 Spark

这消耗了我很多时间，因为以前的信息较少
职位。但根据以往的经验，该解决方案是直截了当的。

无论 Spark 是通过 tar 安装还是 Cloudera Manager 安装，您都需要
只是将两个路径值附加到 spark-env.sh :

   SPARK_LIBRARY_PATH=$SPARK_LIBRARY_PATH:/path/to/your/hadoop-lzo/libs/native
   SPARK_CLASSPATH=$SPARK_CLASSPATH:/path/to/your/hadoop-lzo/java/libs

相关帖子和问题

LZO 性能的比较在 another place 中给出。 .一种
相关问题也在 StackOverflow上提问但没有解决方案
直到本教程结束。您可能还对如何
至 use the LZO Parcel from Cloudera .

关于apache-spark - 在 CDH 5 上找不到用于 Spark 的类 com.hadoop.compression.lzo.LzoCodec？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23441142/

24

4

0

文章推荐： qemu - 如何创建树外 QEMU 设备？

文章推荐： r - 逻辑回归 - 在 R 中定义引用水平

文章推荐： WCF 服务主机配置 - 请尝试将 HTTP 端口更改为 8732

文章推荐： scala - IntelliJ Idea Scala 文件在 'New' 上下文菜单中不可用

hadoop - cdh 包是如何定义的？
我对 cdh 及其维护方式有疑问: 当我转到与特定 cdh 版本相关的包装信息时，我可以检查每个组件的包装版本(例如 cdh 5.5.5 : https://www.cloudera.com/docu
hadoop - CDH HDFS节点退役永无止境
我们有一个 12 台服务器的 hadoop 集群 (CDH)，最近，我们想停用其中的三台，但是这个进程已经在那里运行了 2 天多了。但它永远不会结束，特别是在过去的 24 小时内，我看到三个数据节点上
hadoop - CDH 组件版本号
我安装了一个 CDH 集群并使用了 hadoop 版本，但它只返回了 Hadoop 版本。有没有办法在图形界面上获取所有已安装组件的版本号？例如，哪个命令可以获取 Spark 版本号？最佳答案打
hadoop - 集群 CDH 安装在下载时卡住
我正在尝试使用 Cloudera Manager 在云服务器上的 3 个节点上设置集群。但在集群安装步骤，它卡在 64%。请指导我如何继续它以及在哪里查看相同的日志。以下是安装屏幕的图像最佳答案
cloudera-cdh - impala 对数组和映射的支持
我使用的是 cdh 5.5.1 中的 impala 2.3 据我了解，这个版本应该支持数组和 map 。我有一个包含数组字段的表(请参见下文) 当我尝试使用 CLI 获取此字段时，我得到:选择列表中
hadoop - Cloudera CDH 演示
Datastax DSE 带有组织良好的 demos . Cloudera CDH5 是否提供类似的东西？最佳答案看看 Cloudera Quickstart VM .它(特别是 Hue)包含一些
macos - Cloudera CDH Mac
我参加了一个将使用 Cloudera CDH 和 Hadoop 等的类(class)。类(class)的当前设置涉及使用带有 VirtualBox 的虚拟机。我只是想知道是否有更快、更有效的程序实
hadoop - CDH 5.1主机IP地址变更
我有一个包含 3 个节点的 CDH 5.1 集群。我们使用cloudera manager自动安装来安装它。在我们将盒子移动到不同的网络并更改 IP 地址之前，它一直运行良好。我尝试了以下步骤 1.
cloudera-cdh - 确保 Impala 查询得到具体化
是否有任何可靠且有效的方法来确保 impala 查询结果得到完全具体化，而无需将结果打印到控制台？作为示例，我将使用 INNER JOIN 查询。具体化查询结果的明显方法是创建表作为选择。 CREA
cloudera - 哪个发行版 CDH 与 HDP
我碰巧在 CDH 工作了很长时间(大约 1 年)，并计划重新开始。现在我们有 CDH、HDP 和 Hortonwork 被 Cloudera 收购。 HDP 是否正在积极开发中？还是CDH正在积极开发
cloudera-cdh - 从可移植二进制文件运行 impala 集群
我正在评估多个大数据工具。其中之一当然是Impala。我想通过在集群节点上手动启动进程来启动 Impala 集群。正如我目前为 Spark、H2O、Presto 和 Dask 所做的那样，我想获取二
hadoop - CDH 4.2.0和Ganglia兼容性
我正在使用CDH 4.2.0群集。为了监视群集，我计划安装Ganglia。我发现link表示Ganglia 3.1与hadoop 0.21.0不兼容。有人可以指导我，哪个版本的Ganglia与CDH
python - Cloudera CDH 5群集的mrjob NoFIleFound异常
尝试在hadoop群集上运行mrjob示例时出现此错误。我已经设置了hadoop_home，还可以在hdfs文件系统上创建一个新目录。如果使用hadoop流，则可以运行python map-red
hadoop - 使用命令行(CDH 5)启动Hadoop服务
我知道如何使用Cloudera Manager界面启动服务，但是我更想知道幕后真正发生的事情，而不是依靠“魔术”。我读过this page，但未提供所需信息我知道有一些.sh文件可以使用，但是它们
hadoop - EC2 上的 Cloudera CDH
我是 aws 新手，我正在尝试通过 Cloudera 的 AMI 在 EC2 上运行 Hadoop。我安装了 AMI，下载了 cloudera-haddop-for-ec2-tools，现在我正在尝试
hadoop - Cloudera Manager 有什么替代方案吗？ (CDH)
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。去年关闭。 Improve this
hadoop - 如何为 hadoop 设置服务器？ (CDH)
我正在使用 AWS EC2 运行 3 个实例(m1.small -- 20GB 硬盘和 1.7GB 内存)。集群上会有hadoop、mapReduce和几个监控进程。我是这样拆分的: 1个主服务器
hadoop - CDH 网络接口(interface)速度抑制
我在 myCentOS 7.1 上配置了 CDH 5.5.2。除了以下与网络相关的警告外，一切都运行良好网络接口(interface)速度抑制... 以下网络接口(interface)似乎未全速运行
hbase - CDH Hue 和 Hbase 身份验证
我是 CDH 新手(我使用的当前版本是 5.7.1) 我已经添加了 HBase thrift 角色并在 Hue 中设置，但我仍然遇到以下问题。 HBase Browser Failed to au
ubuntu - Ubuntu 17上的Cloudera CDH 5.x
可以在Ubuntu 17上安装CDH 5.x吗？根据Cloudera网站的说法，他们一直支持到Ubuntu 16。我不熟悉大数据，所以请原谅我的无知。最佳答案 CDH是Cloudera的发行版，包

首页

博学

6Ren·AI

商城

apache-spark - 在 CDH 5 上找不到用于 Spark 的类 com.hadoop.compression.lzo.LzoCodec？