apache-spark - 在多核上运行时，Spark 作业中的 hadoop bz2 库失败-6ren

apache-spark - 在多核上运行时，Spark 作业中的 hadoop bz2 库失败

转载作者：行者123 更新时间：2023-12-04 05:10:40

33

4

我目前在使用 Spark 和读取 bz2 文件时遇到问题。我使用的是 Spark 1.2.0(为 hadoop 2.4 预构建，但文件目前在本地只读)。为了测试，有大约 1500 个文件，每个文件大约 50KB 大小。

下面的脚本 count_loglines.py 说明了这个问题:

 from pyspark import SparkConf, SparkContext
 spark_conf = SparkConf().setAppName("SparkTest")
 sc = SparkContext(conf=spark_conf)

 overall_log_lines = sc.textFile('/files/bzipped/*.log.bz2')
 line_count = overall_log_lines.count()
 print line_count

在一个核心上本地运行脚本，它按预期工作。

spark/bin/spark-submit --master local[1] count_log_lines.py

使用在 2 个内核上运行脚本

spark/bin/spark-submit --master local[2] count_log_lines.py

以 hadoop bzip2 库的错误消息结尾，例如

 : org.apache.spark.SparkException: Job aborted due to stage failure: Task 60 in stage 0.0 failed 1 times, most recent failure: Lost task 60.0 in stage 0.0 (TID 60, localhost): java.io.IOException: unexpected end of stream
    at org.apache.hadoop.io.compress.bzip2.CBZip2InputStream.bsGetBit(CBZip2InputStream.java:626)

当我事先解压缩文件，并读取未压缩的日志文件而不是 bzipped 文件时，即 sc.textFile('/files/unzipped/*.log') 脚本按预期工作，也在多核上运行。

我的问题:这里有什么问题？如果在多个核心上运行，为什么 Spark 作业不能正确读取 bz2 文件？

感谢您的帮助!

最佳答案

我不确定任一文本文件是否支持 bz2 文件。

您可能会查看 pyspark newAPIHadoopFile 或 hadoopfile API。如果拆分的 bz2 文件包含文本(例如日志)，则可以使用:

stdout = sc.newAPIHadoopFile(path="/HDFSpath/to/folder/containing/bz2/", inputFormatClass="org.apache.hadoop.mapreduce.lib.input.TextInputFormat", keyClass="org.apache.hadoop.io.Text", valueClass="org.apache.hadoop.io.Text", keyConverter=None, valueConverter=None, conf=None, batchSize=5)

来源: http://spark.apache.org/docs/1.2.0/api/python/pyspark.html

hadoopFile(path, inputFormatClass, keyClass, valueClass, keyConverter=None, valueConverter=None, conf=None, batchSize=0)

从 HDFS、本地文件系统(在所有节点上可用)或任何 Hadoop 支持的文件系统 URI 中读取具有任意键和值类的“旧”Hadoop InputFormat。该机制与 sc.sequenceFile 相同。

Hadoop 配置可以作为 Python 字典传入。这将转换为 Java 中的配置。

参数:
path – Hadoop 文件的路径
inputFormatClass – Hadoop InputFormat 的完全限定类名(例如“org.apache.hadoop.mapred.TextInputFormat”)
keyClass – 关键 Writable 类的完全限定类名(例如“org.apache.hadoop.io.Text”)
valueClass – 值 Writable 类的完全限定类名(例如“org.apache.hadoop.io.LongWritable”)
keyConverter –(默认无)
valueConverter –(默认无)
conf – Hadoop 配置，作为字典传入(默认无)
batchSize – 表示为单个 Java 对象的 Python 对象的数量。 (默认为 0，自动选择 batchSize)

或者

newAPIHadoopFile(path, inputFormatClass, keyClass, valueClass, keyConverter=None, valueConverter=None, conf=None, batchSize=0)

从 HDFS、本地文件系统(在所有节点上可用)或任何 Hadoop 支持的文件系统 URI 中读取具有任意键和值类的“新 API”Hadoop InputFormat。该机制与 sc.sequenceFile 相同。

Hadoop 配置可以作为 Python 字典传入。这将转换为 Java 中的配置

参数:
path – Hadoop 文件的路径
inputFormatClass – Hadoop InputFormat 的完全限定类名(例如“org.apache.hadoop.mapreduce.lib.input.TextInputFormat”)
keyClass – 关键 Writable 类的完全限定类名(例如“org.apache.hadoop.io.Text”)
valueClass – 值 Writable 类的完全限定类名(例如“org.apache.hadoop.io.LongWritable”)
keyConverter –(默认无)
valueConverter –(默认无)
conf – Hadoop 配置，作为字典传入(默认无)
batchSize – 表示为单个 Java 对象的 Python 对象的数量。 (默认为 0，自动选择 batchSize)

RGs，

钾

关于apache-spark - 在多核上运行时，Spark 作业中的 hadoop bz2 库失败，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28264551/

33

4

0

文章推荐： react-native - react 原生子弹字符？或统一码？

文章推荐： debugging - VS2012 调试不启动浏览器

文章推荐： CKEditor 自定义样式集覆盖默认值

文章推荐： apache-spark - Spark Shuffle- worker 如何知道从何处提取数据

comments - 删除嵌套注释 bz lex
我应该如何在 lex(或 flex)中进行编程以从文本中删除嵌套注释并仅打印不在注释中的文本？我可能应该以某种方式识别我在评论中时的状态以及 block 评论的起始“标签”的数量。让我们制定规则:
javascript - 带有 bz 代码的可调整大小的表格列
我按照 bz's demo 创建了一个可调整大小的表格列代码但是当我创建超过 30 个列时，代码不起作用。我正在创建的表格非常简单: Column 1
c# - 数组拆分 bz 计数
我从我的教授那里得到了这个问题。取一个整数 N 和一个具有 X 个整数的数组 A(非空)。您需要将数组 A 分成两部分，第一个数组 Ax(左数组)包含等于整数 N 的数字，数组 Ay(右数组)包含相
linux - 如何在 unix 中解压 tar.bz 文件？
我发现很多页面都在说明如何解压 tar.bz2 文件，但是如何解压 tar.bz 文件呢？最佳答案使用 tar 的 -j 选项。 tar -xjf /path/to/archive.tar.bz
javascript - 为什么 ((a(-b)?)(?!Z)) 与 "a-bZ"中的 a 匹配？
我想写一个匹配的正则表达式 a a-b 但前提是这些序列后面没有 Z ((a(-b)?)(?!Z)) a matches a ok a-b matches a-b
python-3.x - 无法为 bz 提取 shape_predictor_68_face_landmarks.dat
我正在尝试运行一些面部正面化代码(在 Windows10 上使用 Python3)，该代码使用 opencv 和 dlib 并需要一个名为 shape_predictor_68_face_landma
hadoop - 在 Hadoop 上执行 Cassandra WordCount 时出错 : java. lang.NoSuchMethodError : org. apache.thrift.meta_data.FieldValueMetaData.(BZ)V
尝试从 cassandra 执行 WordCount 示例并出现错误: 线程“主”java.lang.NoSuchMethodError 中的异常:org.apache.thrift.meta_dat
ruby-on-rails - Open3.popen3 函数打开 bz、gz 和 txt 文件时出现 'No such file or directory' 或 'not opened for reading' 错误？
我正在尝试编写一个实用函数来打开三种不同类型的文件:.bz2、.gz 和 .txt。我不能只使用 File.read，因为它会返回压缩文件的垃圾。我正在尝试使用 Open3.popen3 以便我可以给

首页

博学

6Ren·AI

商城

apache-spark - 在多核上运行时，Spark 作业中的 hadoop bz2 库失败