- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在 EMR (Hadoop 2.4.0) 上使用 Spark (1.4.0) 在 YARN 模式下通过 IPython notebook 运行 PySpark,使用:
IPYTHON_OPTS="notebook --no-browser" nohup /usr/lib/spark/bin/pyspark --master yarn-client --num-executors 2 --executor-memory 512m --executor-cores 1 > /mnt/var/log/python_notebook.log 2> /mnt/var/log/python_notebook_err.log &
sc.textFile('/tmp/text.csv').first()
Caused by: java.lang.ClassNotFoundException: Class com.hadoop.compression.lzo.LzoCodec not found
.
Py4JJavaError Traceback (most recent call last)
<ipython-input-54-e39168c6841b> in <module>()
----> 1 sc.textFile('/tmp/text.csv').first()
/usr/lib/spark/python/pyspark/rdd.py in first(self)
1293 ValueError: RDD is empty
1294 """
-> 1295 rs = self.take(1)
1296 if rs:
1297 return rs[0]
/usr/lib/spark/python/pyspark/rdd.py in take(self, num)
1245 """
1246 items = []
-> 1247 totalParts = self.getNumPartitions()
1248 partsScanned = 0
1249
/usr/lib/spark/python/pyspark/rdd.py in getNumPartitions(self)
353 2
354 """
--> 355 return self._jrdd.partitions().size()
356
357 def filter(self, f):
/usr/lib/spark/python/lib/py4j-0.8.2.1-src.zip/py4j/java_gateway.py in __call__(self, *args)
536 answer = self.gateway_client.send_command(command)
537 return_value = get_return_value(answer, self.gateway_client,
--> 538 self.target_id, self.name)
539
540 for temp_arg in temp_args:
/usr/lib/spark/python/lib/py4j-0.8.2.1-src.zip/py4j/protocol.py in get_return_value(answer, gateway_client, target_id, name)
298 raise Py4JJavaError(
299 'An error occurred while calling {0}{1}{2}.\n'.
--> 300 format(target_id, '.', name), value)
301 else:
302 raise Py4JError(
Py4JJavaError: An error occurred while calling o159.partitions.
: java.lang.RuntimeException: Error in configuring object
at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:109)
at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:75)
at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:133)
at org.apache.spark.rdd.HadoopRDD.getInputFormat(HadoopRDD.scala:190)
at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:203)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:219)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:217)
at scala.Option.getOrElse(Option.scala:120)
at org.apache.spark.rdd.RDD.partitions(RDD.scala:217)
at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:32)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:219)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:217)
at scala.Option.getOrElse(Option.scala:120)
at org.apache.spark.rdd.RDD.partitions(RDD.scala:217)
at org.apache.spark.api.java.JavaRDDLike$class.partitions(JavaRDDLike.scala:65)
at org.apache.spark.api.java.AbstractJavaRDDLike.partitions(JavaRDDLike.scala:47)
at sun.reflect.GeneratedMethodAccessor30.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:231)
at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:379)
at py4j.Gateway.invoke(Gateway.java:259)
at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:133)
at py4j.commands.CallCommand.execute(CallCommand.java:79)
at py4j.GatewayConnection.run(GatewayConnection.java:207)
at java.lang.Thread.run(Thread.java:745)
Caused by: java.lang.reflect.InvocationTargetException
at sun.reflect.GeneratedMethodAccessor31.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:106)
... 25 more
Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo.LzoCodec not found.
at org.apache.hadoop.io.compress.CompressionCodecFactory.getCodecClasses(CompressionCodecFactory.java:135)
at org.apache.hadoop.io.compress.CompressionCodecFactory.<init>(CompressionCodecFactory.java:175)
at org.apache.hadoop.mapred.TextInputFormat.configure(TextInputFormat.java:45)
... 29 more
Caused by: java.lang.ClassNotFoundException: Class com.hadoop.compression.lzo.LzoCodec not found
at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:1980)
at org.apache.hadoop.io.compress.CompressionCodecFactory.getCodecClasses(CompressionCodecFactory.java:128)
... 31 more
os.environ['SPARK_LIBRARY_PATH'] = "/usr/lib/hadoop-lzo/lib/native/"
os.environ['SPARK_CLASSPATH'] = "/usr/lib/hadoop-lzo/lib/"
最佳答案
我知道这个问题很老,但我过去一周一直在处理这个问题,所以我想我会发布我们的解决方案,以防其他人遇到这个问题。我们的设置是一个 EC2 实例作为 EMR 之外的驱动程序运行,然后它可以创建 EMR 集群并与主节点通信。集群运行的是 Spark 2.2.0,EMR 版本是 5.9.0。
解决方案是克隆 Twitter Hadoop-Lzo Github repo在 Spark 驱动程序上,然后将路径添加到 hadoop-lzo.jar 以触发提交参数。 SUBMIT_ARGS='--jars /opt/hadoop-lzo/target/hadoop-lzo-0.4.21-SNAPSHOT.jar
.只需将 .jar 的路径替换为您将 repo 克隆到的路径。
关于apache-spark - EMR PySpark : LZO Codec not found,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32212906/
我正在尝试使用 java-lzo 库解压缩压缩的字节数组。我正在关注this reference 。 我将以下 maven 依赖项添加到 pom.xml - org.anarre
我在两个目录中有一个 LZO 压缩文件,我需要将其解压缩,然后删除所有 LZO 压缩文件。 所以我在 /test01/primary 文件夹中有 LZO 压缩文件,我需要解压缩它,然后删除所有 .lz
用于 lzo-net ( http://lzo-net.sourceforge.net/ ) 我正在寻找新版本的 lzo.dll 文件。我的是 2004 年的。 最新的文件应该是 2.0.6 ( ht
我已经安装了 Cloudera Hadoop-LZO 软件包并将以下设置添加到我的客户端环境安全阀中: HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/opt/cloudera
我只是按照 Cloudera 文档中的步骤操作,在集群上安装了 GPL Extras Parcel,并通过 Cloudera Manager 配置了 HDFS 服务。但是尝试读取 HDFS 上的 .l
我正在尝试在我的 Java 程序中使用 LZO 压缩库 (http://www.oberhumer.com/opensource/lzo/)。我找不到一个示例如何使用它来压缩和解压缩数据。有人可以帮我
我已经在我的 Ubuntu 机器上安装了 LZO,我想使用 ti 来压缩一个 char* 类型的字符串。 在示例文件中,我找到了这个代码片段(我已经为我的应用程序对它进行了一些编辑): int r
我们在 s3 中有 3 个 .lzo 文件和相应的 .index 文件。我们正在这些文件的目录上创建一个外部表。每个 lzo 文件的大小为 100MB+,每个文件的未压缩大小为 800+MB bloc
非常感谢您阅读我的帖子。 我正在尝试在我的服务器(运行 Xeon CPU)上的 HBase 上安装 LZO 2.03 压缩编解码器。我目前正在运行 Hadoop 0.20.1 和 HBase 0.90
我正在设置 lzo 编解码器以用作我的 hadoop 作业中的压缩工具。我知道 lzo 具有创建可拆分文件的理想功能。但是我还没有找到让 lzo 自动创建可拆分文件的方法。到目前为止我读过的博客都提到
我在一个项目中使用 MiniLZO 来完成一些非常简单的压缩任务。我用一个程序压缩,用另一个程序解压缩。我想知道为解压缓冲区分配多少空间。我对过度分配空间没有意见,如果它可以省去我必须用整数注释我的输
我已经在fusecompress/安装了目录compressed/的fusecompress我将一个大文件(几GB)复制到fusecompress 目录(好吧,我对它进行了mv 处理)。目录compr
我们正在选择存储原始日志的文件格式,主要要求是压缩和可拆分。 block 压缩(以编解码器为准)SequenceFiles和 Hadoop-LZO到目前为止看起来最合适。 哪一个被Map-Reduce
在使用 TextInputFormat 时,Hadoop 似乎透明地处理压缩(这是什么时候引入的,我不记得是在 0.20.203 上)。不幸的是,当使用 LZO 压缩时,Hadoop 不使用 LZO
我正在尝试为 Hbase 设置 LZO 压缩。但是我在创建 build.xml 时遇到了问题。日志如下: anonymouse@hbase:~/omalley-hadoop-gpl-compressi
通常我会执行以下操作来使用 LZO: 使用lzop命令将数据文件压缩到本地磁盘。 放入HDFS。 使用分布式 lzo 索引器生成 .index 文件。 我想知道有没有办法同时对 HDFS 上的原始文件
尝试通过压缩运行mapreduce作业 hadoop jar \ /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar \ rando
我需要安装 python-lzo-1.08。当我尝试从 gz 文件执行此操作时,出现错误: NameError:名称“CURL_DIR”未定义 操作系统:win7 我无法在任何地方找到 Windows
我有一些使用 lzo 压缩的 tsv 格式的数据。现在,我想在 java Spark 程序中使用这些数据。 目前,我可以解压这些文件,然后使用 将它们作为文本文件导入到 Java 中 Spar
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 关闭 9 年前。 Improve this
我是一名优秀的程序员,十分优秀!