- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我已经在这个问题上工作了两天,仍然没有找到方法。
问题 :我们通过最新的 CDH 5 安装的 Spark 总是提示 LzoCodec 类丢失,即使在我通过 cloudera manager 中的 Parcels 安装 HADOOP_LZO 之后也是如此。 我们在 CDH 5.0.0-1.cdh5.0.0.p0.47 上运行 MR1 .
尝试修复 :
official CDH documentation about 'Using the LZO Parcel中的配置' 也添加了但问题仍然存在。
大多数谷歌搜索的帖子都给出了与上述类似的建议。我还怀疑 Spark 试图与未在那里激活的 YARN 运行;但我在 CMF 或其他有关此主题的帖子中找不到配置。
如果您知道如何处理,请给我一些帮助。
最佳答案
解决了!!愿此解决方案能帮助遇到同样问题的其他人。
在本教程中,我将向您展示如何在 Hadoop、Pig 上启用 LZO 压缩
和 Spark 。我想你已经设置了一个基本的 hadoop 安装
成功(如果没有,请引用 Hadoop installation 的其他教程)。
您到达此页面可能是因为您遇到了同样的问题
正如我所遇到的,通常从 Java 异常开始:
Caused by: java.lang.ClassNotFoundException: Class com.hadoop.compression.lzo.LzoCodec not found.
native-lzo
图书馆hadoop-lzo
图书馆native-lzo
图书馆
hadoop-lzo
所需.您可以手动安装它们
native-lzo
安装。):
sudo port install lzop lzo2
sudo yum install lzo liblzo-devel
sudo apt-get install liblzo2-dev
hadoop-lzo
图书馆
hadoop-lzo
作为包裹运送给客户,而您
hadoop-lzo
将安装在
/opt/cloudera/parcels/HADOOP_LZO
.
core-site.xml
中设置压缩编解码器库:<property>
<name>io.compression.codecs</name>
<value>org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.BZip2Codec,
com.hadoop.compression.lzo.LzoCodec,
com.hadoop.compression.lzo.LzopCodec
</value>
</property>
<property>
<name>io.compression.codec.lzo.class</name>
<value>com.hadoop.compression.lzo.LzoCodec</value>
</property>
mapred-site.xml
中设置 MapReduce 压缩配置:<property>
<name>mapred.compress.map.output</name>
<value>true</value>
</property>
<property>
<name>mapred.map.output.compression.codec</name>
<value>com.hadoop.compression.lzo.LzoCodec</value>
</property>
<property>
<name>mapred.child.env</name>
<value>JAVA_LIBRARY_PATH=$JAVA_LIBRARY_PATH:/path/to/your/hadoop-lzo/libs/native</value>
</property>
HADOOP_CLASSPATH
至 hadoop-env.sh
:HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/opt/cloudera/parcels/CDH/lib/hadoop/lib/*
> **io.compression.codecs**
> **mapred.compress.map.output**
> **mapred.map.output.compression.codec**
> **MapReduce Client safety valve for mapred-site.xml**
HADOOP_CLASSPATH
多变的。 $ hadoop jar /path/to/hadoop-lzo.jar com.hadoop.compression.lzo.LzoIndexer lzo_logs
$ 14/05/04 01:13:13 INFO lzo.GPLNativeCodeLoader: Loaded native gpl library
$ 14/05/04 01:13:13 INFO lzo.LzoCodec: Successfully loaded & initialized native-lzo library [hadoop-lzo rev 49753b4b5a029410c3bd91278c360c2241328387]
$ 14/05/04 01:13:14 INFO lzo.LzoIndexer: [INDEX] LZO Indexing file datasets/lzo_logs size 0.00 GB...
$ 14/05/04 01:13:14 INFO Configuration.deprecation: hadoop.native.lib is deprecated. Instead, use io.native.lib.available
$ 14/05/04 01:13:14 INFO lzo.LzoIndexer: Completed LZO Indexing in 0.39 seconds (0.02 MB/s). Index size is 0.01 KB.
spark-env.sh
:
SPARK_LIBRARY_PATH=$SPARK_LIBRARY_PATH:/path/to/your/hadoop-lzo/libs/native
SPARK_CLASSPATH=$SPARK_CLASSPATH:/path/to/your/hadoop-lzo/java/libs
关于apache-spark - 在 CDH 5 上找不到用于 Spark 的类 com.hadoop.compression.lzo.LzoCodec?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23441142/
我对 cdh 及其维护方式有疑问: 当我转到与特定 cdh 版本相关的包装信息时,我可以检查每个组件的包装版本(例如 cdh 5.5.5 : https://www.cloudera.com/docu
我们有一个 12 台服务器的 hadoop 集群 (CDH),最近,我们想停用其中的三台,但是这个进程已经在那里运行了 2 天多了。但它永远不会结束,特别是在过去的 24 小时内,我看到三个数据节点上
我安装了一个 CDH 集群 并使用了 hadoop 版本,但它只返回了 Hadoop 版本。有没有办法在图形界面上获取所有已安装组件的版本号?例如,哪个命令可以获取 Spark 版本号? 最佳答案 打
我正在尝试使用 Cloudera Manager 在云服务器上的 3 个节点上设置集群。但在集群安装步骤,它卡在 64%。请指导我如何继续它以及在哪里查看相同的日志。 以下是安装屏幕的图像 最佳答案
我使用的是 cdh 5.5.1 中的 impala 2.3 据我了解,这个版本应该支持数组和 map 。 我有一个包含数组字段的表(请参见下文) 当我尝试使用 CLI 获取此字段时,我得到:选择列表中
Datastax DSE 带有组织良好的 demos . Cloudera CDH5 是否提供类似的东西? 最佳答案 看看 Cloudera Quickstart VM .它(特别是 Hue)包含一些
我参加了一个将使用 Cloudera CDH 和 Hadoop 等的类(class)。 类(class)的当前设置涉及使用带有 VirtualBox 的虚拟机。 我只是想知道是否有更快、更有效的程序实
我有一个包含 3 个节点的 CDH 5.1 集群。我们使用cloudera manager自动安装来安装它。在我们将盒子移动到不同的网络并更改 IP 地址之前,它一直运行良好。我尝试了以下步骤 1.
是否有任何可靠且有效的方法来确保 impala 查询结果得到完全具体化,而无需将结果打印到控制台?作为示例,我将使用 INNER JOIN 查询。 具体化查询结果的明显方法是创建表作为选择。 CREA
我碰巧在 CDH 工作了很长时间(大约 1 年),并计划重新开始。现在我们有 CDH、HDP 和 Hortonwork 被 Cloudera 收购。 HDP 是否正在积极开发中?还是CDH正在积极开发
我正在评估多个大数据工具。其中之一当然是Impala。 我想通过在集群节点上手动启动进程来启动 Impala 集群。正如我目前为 Spark、H2O、Presto 和 Dask 所做的那样,我想获取二
我正在使用CDH 4.2.0群集。为了监视群集,我计划安装Ganglia。我发现link表示Ganglia 3.1与hadoop 0.21.0不兼容。有人可以指导我,哪个版本的Ganglia与CDH
尝试在hadoop群集上运行mrjob示例时出现此错误。 我已经设置了hadoop_home,还可以在hdfs文件系统上创建一个新目录。 如果使用hadoop流,则可以运行python map-red
我知道如何使用Cloudera Manager界面启动服务,但是我更想知道幕后真正发生的事情,而不是依靠“魔术”。 我读过this page,但未提供所需信息 我知道有一些.sh文件可以使用,但是它们
我是 aws 新手,我正在尝试通过 Cloudera 的 AMI 在 EC2 上运行 Hadoop。我安装了 AMI,下载了 cloudera-haddop-for-ec2-tools,现在我正在尝试
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 去年关闭。 Improve this
我正在使用 AWS EC2 运行 3 个实例(m1.small -- 20GB 硬盘和 1.7GB 内存)。 集群上会有hadoop、mapReduce和几个监控进程。 我是这样拆分的: 1个主服务器
我在 myCentOS 7.1 上配置了 CDH 5.5.2。除了以下与网络相关的警告外,一切都运行良好 网络接口(interface)速度抑制... 以下网络接口(interface)似乎未全速运行
我是 CDH 新手(我使用的当前版本是 5.7.1) 我已经添加了 HBase thrift 角色并在 Hue 中设置,但我仍然遇到以下问题。 HBase Browser Failed to au
可以在Ubuntu 17上安装CDH 5.x吗?根据Cloudera网站的说法,他们一直支持到Ubuntu 16。 我不熟悉大数据,所以请原谅我的无知。 最佳答案 CDH是Cloudera的发行版,包
我是一名优秀的程序员,十分优秀!