- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在S3中有大约200个文件,例如a_file.json.bz2
,这些文件的每一行都是JSON格式的记录,但有些字段是由pickle.dumps
,例如一个日期时间
字段。 bzip
压缩后每个文件约 1GB。现在我需要在 Spark(实际上是 pyspark)中处理这些文件,但我什至无法获取每条记录。那么这里的最佳实践是什么?
ds.take(10)
给出
[(0, u'(I551'),
(6, u'(dp0'),
(11, u'Vadv_id'),
(19, u'p1'),
(22, u'V479883'),
(30, u'p2'),
(33, u'sVcpg_id'),
(42, u'p3'),
(45, u'V1913398'),
(54, u'p4')]
显然,拆分不是按每个记录进行的。
谢谢。
最佳答案
我遇到了这个问题 reading gpg-encrypted files 。您可以按照 Daniel 的建议使用 WholeTextFiles,但在读取大文件时必须小心,因为整个文件将在处理之前加载到内存中。如果文件太大,可能会使执行器崩溃。我使用了parallelize和flatMap。也许类似于
def read_fun_generator(filename):
with bz2.open(filename, 'rb') as f:
for line in f:
yield line.strip()
bz2_filelist = glob.glob("/path/to/files/*.bz2")
rdd_from_bz2 = sc.parallelize(bz2_filelist).flatMap(read_fun_generator)
关于apache-spark - 在 Spark 中处理 bzipped json 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31185812/
为了直接以bz2格式转储数据库,我尝试使用管道直接压缩转储文件,如下: mysqldump -u userName -p myDataBase | bzip2 -c > myDump.sql.bz2
首先是一些代码: ByteArrayOutputStream bos = new ByteArrayOutputStream(); CBZip2OutputStream zos = new CBZip
我想使用 tee 命令将 bzip 命令的 stdop 重定向到日志文件,但它不起作用并且在 tee 命令中为“-a”给出错误。请查看下面的错误, > bzip2 file -c 1> tee -a
我的项目使用的是带有 bzip2 的 Boost iostream 的旧版本。我现在正在尝试升级到 Boost 1.51。起初我没有用 bzip 编译,所以很明显我让链接器大喊 libboost_bz
有什么方法可以压缩 GZip、BZip、BZip2、xz 格式的目录。我正在构建一个命令行工具(使用 bash),我需要包含这些选项。 最佳答案 像这样的命令 tar czf output.tar.g
我通过在 Scala 中进行 Python 挑战系列来惩罚自己。 现在,挑战之一是读取使用 bzip 算法压缩的字符串并输出结果。 BZh91AY&SYA\xaf\x82\r\x00\x00\x01\
我在S3中有大约200个文件,例如a_file.json.bz2,这些文件的每一行都是JSON格式的记录,但有些字段是由pickle.dumps,例如一个日期时间字段。 bzip 压缩后每个文件约 1
我在S3中有大约200个文件,例如a_file.json.bz2,这些文件的每一行都是JSON格式的记录,但有些字段是由pickle.dumps,例如一个日期时间字段。 bzip 压缩后每个文件约 1
我一直在致力于从不同类型的文件格式(例如“zip,tar,tbz,tgz”)解压缩的任务。我能够为除 tbz 之外的所有内容执行此操作,因为 apache common compress 库提供了 B
我尝试通过 phpmyadmin 导出我的数据库,我可以在没有任何压缩的情况下导出它,但是当我选择任何类型的压缩(例如 gzip、bzip 或 zip)时,它最终会出现网络错误(Chrome),源文件
我是一名优秀的程序员,十分优秀!