gpt4 book ai didi

apache-spark - 使用 Spark 解码一组二进制文件

转载 作者:行者123 更新时间:2023-12-04 04:24:07 28 4
gpt4 key购买 nike

我有上千个压缩格式的二进制文件,每个文件都需要一次单独解码。文件的最大大小为 500 MB。目前,我能够使用 python(使用 struct 包)一个一个地解码文件。但是由于文件的数量和大小都很大,所以不可能顺序解码文件。

我正在考虑在 spark 中处理这些数据,但我在 spark 方面没有太多经验。您能否建议是否可以在 spark 中完成此任务。提前谢谢了。

最佳答案

sc.textFiles 在这里不起作用,因为您有二进制文件。你应该使用 sc.binaryFiles

这是 python 中的示例,我确信 scala 和 java 具有相同的 binaryFiles API。

from pyspark import SparkContext
sc= SparkContext()

raw_binary = sc.binaryFiles("/path/to/my/files/directory")

import zlib
def decompress(val):
try:
s = zlib.decompress(val, 16 + zlib.MAX_WBITS)
except:
return val
return s
raw_binary.mapValues(decompress).take(1)

可以使用zlib解压

关于apache-spark - 使用 Spark 解码一组二进制文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38763147/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com