apache-spark - 在 Spark 中处理 bzipped json 文件？-6ren

apache-spark - 在 Spark 中处理 bzipped json 文件？

转载作者：行者123 更新时间：2023-12-02 21:15:12

25

4

我在S3中有大约200个文件，例如a_file.json.bz2，这些文件的每一行都是JSON格式的记录，但有些字段是由pickle.dumps，例如一个日期时间字段。 bzip 压缩后每个文件约 1GB。现在我需要在 Spark(实际上是 pyspark)中处理这些文件，但我什至无法获取每条记录。那么这里的最佳实践是什么？

ds.take(10) 给出

[(0, u'(I551'),
 (6, u'(dp0'),
 (11, u'Vadv_id'),
 (19, u'p1'),
 (22, u'V479883'),
 (30, u'p2'),
 (33, u'sVcpg_id'),
 (42, u'p3'),
 (45, u'V1913398'),
 (54, u'p4')]

显然，拆分不是按每个记录进行的。

谢谢。

最佳答案

我遇到了这个问题 reading gpg-encrypted files 。您可以按照 Daniel 的建议使用 WholeTextFiles，但在读取大文件时必须小心，因为整个文件将在处理之前加载到内存中。如果文件太大，可能会使执行器崩溃。我使用了parallelize和flatMap。也许类似于

def read_fun_generator(filename):
    with bz2.open(filename, 'rb') as f:
        for line in f:
            yield line.strip()

bz2_filelist = glob.glob("/path/to/files/*.bz2")
rdd_from_bz2 = sc.parallelize(bz2_filelist).flatMap(read_fun_generator)

关于apache-spark - 在 Spark 中处理 bzipped json 文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31185812/

25

4

0

文章推荐： Ember.js:依赖于路由的菜单

文章推荐： asp.net-mvc - 使用两个 URL 使用 Azure AD 进行单点登录

文章推荐： Django 阻止页面缓存

mysql - 如何将 bzip 的输出通过管道传输到 mysql，以将数据直接从 bzip 压缩文件恢复到数据库中
为了直接以bz2格式转储数据库，我尝试使用管道直接压缩转储文件，如下: mysqldump -u userName -p myDataBase | bzip2 -c > myDump.sql.bz2
java - BZIP-OutputStream 的问题
首先是一些代码: ByteArrayOutputStream bos = new ByteArrayOutputStream(); CBZip2OutputStream zos = new CBZip
linux - bzip 命令不适用于 "tee -a"
我想使用 tee 命令将 bzip 命令的 stdop 重定向到日志文件，但它不起作用并且在 tee 命令中为“-a”给出错误。请查看下面的错误， > bzip2 file -c 1> tee -a
c++ - 使用 bzip boost iostream - 未解析的符号
我的项目使用的是带有 bzip2 的 Boost iostream 的旧版本。我现在正在尝试升级到 Boost 1.51。起初我没有用 bzip 编译，所以很明显我让链接器大喊 libboost_bz
linux - 为什么不能使用 gzip、bzip、bzip2、xz 压缩目录？
有什么方法可以压缩 GZip、BZip、BZip2、xz 格式的目录。我正在构建一个命令行工具(使用 bash)，我需要包含这些选项。最佳答案像这样的命令 tar czf output.tar.g
java - 在 Scala 中处理 BZIP 字符串/文件
我通过在 Scala 中进行 Python 挑战系列来惩罚自己。现在，挑战之一是读取使用 bzip 算法压缩的字符串并输出结果。 BZh91AY&SYA\xaf\x82\r\x00\x00\x01\
apache-spark - 在 Spark 中处理 bzipped json 文件？
我在S3中有大约200个文件，例如a_file.json.bz2，这些文件的每一行都是JSON格式的记录，但有些字段是由pickle.dumps，例如一个日期时间字段。 bzip 压缩后每个文件约 1
apache-spark - 在 Spark 中处理 bzipped json 文件？
我在S3中有大约200个文件，例如a_file.json.bz2，这些文件的每一行都是JSON格式的记录，但有些字段是由pickle.dumps，例如一个日期时间字段。 bzip 压缩后每个文件约 1
java - 如何使用 Apache Commons 解压缩 BZIP(不是 BZIP2)
我一直在致力于从不同类型的文件格式(例如“zip，tar，tbz，tgz”)解压缩的任务。我能够为除 tbz 之外的所有内容执行此操作，因为 apache common compress 库提供了 B
database - phpmyadmin 导出为 gzip、bzip 和 zip 时出现网络错误
我尝试通过 phpmyadmin 导出我的数据库，我可以在没有任何压缩的情况下导出它，但是当我选择任何类型的压缩(例如 gzip、bzip 或 zip)时，它最终会出现网络错误(Chrome)，源文件

首页

博学

6Ren·AI

商城

apache-spark - 在 Spark 中处理 bzipped json 文件？