- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我目前在使用 Spark 和读取 bz2 文件时遇到问题。我使用的是 Spark 1.2.0(为 hadoop 2.4 预构建,但文件目前在本地只读)。为了测试,有大约 1500 个文件,每个文件大约 50KB 大小。
下面的脚本 count_loglines.py 说明了这个问题:
from pyspark import SparkConf, SparkContext
spark_conf = SparkConf().setAppName("SparkTest")
sc = SparkContext(conf=spark_conf)
overall_log_lines = sc.textFile('/files/bzipped/*.log.bz2')
line_count = overall_log_lines.count()
print line_count
spark/bin/spark-submit --master local[1] count_log_lines.py
spark/bin/spark-submit --master local[2] count_log_lines.py
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 60 in stage 0.0 failed 1 times, most recent failure: Lost task 60.0 in stage 0.0 (TID 60, localhost): java.io.IOException: unexpected end of stream
at org.apache.hadoop.io.compress.bzip2.CBZip2InputStream.bsGetBit(CBZip2InputStream.java:626)
最佳答案
我不确定任一文本文件是否支持 bz2 文件。
您可能会查看 pyspark newAPIHadoopFile 或 hadoopfile API。如果拆分的 bz2 文件包含文本(例如日志),则可以使用:
stdout = sc.newAPIHadoopFile(path="/HDFSpath/to/folder/containing/bz2/", inputFormatClass="org.apache.hadoop.mapreduce.lib.input.TextInputFormat", keyClass="org.apache.hadoop.io.Text", valueClass="org.apache.hadoop.io.Text", keyConverter=None, valueConverter=None, conf=None, batchSize=5)
hadoopFile(path, inputFormatClass, keyClass, valueClass, keyConverter=None, valueConverter=None, conf=None, batchSize=0)
newAPIHadoopFile(path, inputFormatClass, keyClass, valueClass, keyConverter=None, valueConverter=None, conf=None, batchSize=0)
关于apache-spark - 在多核上运行时,Spark 作业中的 hadoop bz2 库失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28264551/
我应该如何在 lex(或 flex)中进行编程以从文本中删除嵌套注释并仅打印不在注释中的文本?我可能应该以某种方式识别我在评论中时的状态以及 block 评论的起始“标签”的数量。 让我们制定规则:
我按照 bz's demo 创建了一个可调整大小的表格列代码 但是当我创建超过 30 个列时,代码不起作用。我正在创建的表格非常简单: Column 1
我从我的教授那里得到了这个问题。 取一个整数 N 和一个具有 X 个整数的数组 A(非空)。您需要将数组 A 分成两部分,第一个数组 Ax(左数组)包含等于整数 N 的数字,数组 Ay(右数组)包含相
我发现很多页面都在说明如何解压 tar.bz2 文件,但是如何解压 tar.bz 文件呢? 最佳答案 使用 tar 的 -j 选项。 tar -xjf /path/to/archive.tar.bz
我想写一个匹配的正则表达式 a a-b 但前提是这些序列后面没有 Z ((a(-b)?)(?!Z)) a matches a ok a-b matches a-b
我正在尝试运行一些面部正面化代码(在 Windows10 上使用 Python3),该代码使用 opencv 和 dlib 并需要一个名为 shape_predictor_68_face_landma
尝试从 cassandra 执行 WordCount 示例并出现错误: 线程“主”java.lang.NoSuchMethodError 中的异常:org.apache.thrift.meta_dat
我正在尝试编写一个实用函数来打开三种不同类型的文件:.bz2、.gz 和 .txt。我不能只使用 File.read,因为它会返回压缩文件的垃圾。我正在尝试使用 Open3.popen3 以便我可以给
我是一名优秀的程序员,十分优秀!