python - PySpark 解压文件 : Which is a good approach for unzipping files and storing the csv files into a Delta Table?-6ren

python - PySpark 解压文件 : Which is a good approach for unzipping files and storing the csv files into a Delta Table?

转载作者：行者123 更新时间：2023-12-03 21:00:08

24

4

我在 Amazon s3 中存储了 zip 文件，然后我有一个 Python 列表为 ["s3://mybucket/file1.zip", ..., "s3://mybucket/fileN.zip"] ，我需要使用 Spark Cluster 解压缩所有这些文件，并将所有 CSV 文件存储到增量格式表中。我想知道比我目前的方法更快的处理方法:

1) 我有一个领用于在我的 Python 列表中进行迭代。

2) 我正在使用 Python Boto3 从 s3 获取 zip 文件 s3.bucket.Object(file)
3)我正在使用下一个代码解压缩文件

import io
import boto3
import shutil
import zipfile
for file in ["s3://mybucket/file1.zip", ..., "s3://mybucket/fileN.zip"]:
    obj = s3.bucket.Object(file)
    with io.BytesIO(obj.get()["Body"].read()) as tf:
        tf.seek(0)
        with zipfile.ZipFile(tf, mode='r') as zipf:
            for subfile in zipf.namelist():
                zipf.extract(subfile, outputZip)
    dbutils.fs.cp("file:///databricks/driver/{0}".format(outputZip), "dbfs:" + outputZip, True)
    shutil.rmtree(outputZip)
    dbutils.fs.rm("dbfs:" + outputZip, True)

4)我的文件在驱动程序节点中解压缩，然后执行程序无法访问这些文件(我没有找到方法)所以我使用 dbutils.fs.cp() 将所有这些 csv 文件移动到 DBFS |

5)我使用 Pyspark Dataframe 从 DBFS 读取所有 csv 文件，并将其写入 Delta 表

df = self.spark.read.option("header", "true").csv("dbfs:" + file) 
df.write.format("delta").save(path)

6) 我从 DBFS 和驱动程序节点中删除数据

因此，我目前的目标是在比我之前的过程更短的时间内将 S3 中的 zip 文件摄取到 Delta 表中。我想我可以将其中一些过程并行化为 1) 步骤，我想避免复制到 DBFS 的步骤，因为我不需要在那里保存数据，我还需要在每次摄取后删除 CSV 文件Delta 表以避免驱动程序节点磁盘中的内存错误。有什么建议吗？

最佳答案

好吧，多种可能的解决方案可能是:

您可以使用 df=spark.read.csv("s3://mybucket") 一起读取所有文件(如果架构允许)并使用

df.write.format("delta").save(path)

将数据帧写为增量

您可以单独读取数据帧中的每个文件并直接附加到现有的增量表(即使它是空的)，而无需将其存储在 DBFS 中。更多详情:https://docs.databricks.com/delta/delta-batch.html#append-using-dataframes

您可以在数据框中单独读取每个文件并将其合并到现有的主数据框中。最后，您可以将主数据帧写为增量表。

选项 3 类似于:

    import io
    import boto3
    import shutil
    import zipfile
    from pyspark.sql import SparkSession

    spark = SparkSession.builder.appName("name").getOrCreate()

    schema = StructType([
    \\ YOUR DATA SCHMEA
    ])

    df = spark.createDataFrame([], schema)

    for file in ["s3://mybucket/file1.zip", ..., "s3://mybucket/fileN.zip"]:
        obj = s3.bucket.Object(file)
        with io.BytesIO(obj.get()["Body"].read()) as tf:
            tf.seek(0)
            with zipfile.ZipFile(tf, mode='r') as zipf:
                for subfile in zipf.namelist():
                    zipf.extract(subfile, outputZip)
        tempdf = spark.read.option("header", "true").csv(outputZip)
        df = df.union(tempdf)      

    df.write.format("delta").save(path)

关于python - PySpark 解压文件 : Which is a good approach for unzipping files and storing the csv files into a Delta Table?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58628626/

24

4

0

文章推荐： java - Jolokia - Origin null 不允许调用此代理

文章推荐： iphone - 一次移动 Sprite (多个)

文章推荐： iphone - 调试构建工作得很好，临时构建很难崩溃

linux - 为什么我收到 IO::Uncompress::Unzip::unzip: input filename is undef or null string 消息？
我有一个包含许多 zip 文件的文件夹。我需要获取这些 zip 文件中的任何一个，将其解压缩并从压缩文件中获取特定文件。我为此使用 IO::Uncompress::Unzip 模块。我的 perl 脚
scala - scala 中是否有一些扩展版本的 unzip 适用于任何 List[n-tuple] 而不是像 Unzip 那样仅适用于 List[pairs]？
如果我有一个三元组列表，我想要三个单独的列表。还有比这更好的方法吗: (listA, listB, listC) = (list.map(_._1), list.map(_._2). list.map
unzip - 如何使用unzOpenCurrentFilePassword？
有人可以帮我移植我的代码吗void * uzFile = unzOpen("zip 文件名"); 使用 minizip 中的 unzOpenCurrentFilePassword 吗？我想用密码保护我
c++ unzip 返回无法创建提取目录
我编写了一段简单的代码，用于使用 unzip 提取 zip 文件。当未设置输出目录时它工作正常但返回错误是目录已设置 "Archive: /home/vishvesh.kumar/tempFolder
Android UNZIP 输入流问题
我正在尝试解压缩位于 Android 设备的 SDCARD 上的文件。如果 ZIP 文件只包含文件而不包含文件夹，则一切正常。但是，我希望应用程序解压缩的生产文件包含多个目录和子目录。这是我遇到问题的
android:unzip 下载文件
您好，我已经从 Windows 7 创建并将其放入服务器。现在我正在将文件从服务器下载到我的 SD 卡中。但是当我开始解压缩时它显示错误， java.util.zip.ZipException: E
unzip - 如何使用 yauzl 解压缩到文件夹？
我正在尝试使用 yauzl 解压缩文件。然而 example in the repo不显示如何解压缩到文件夹。它只是说: readStream.pipe(somewhere); 有没有一种简单的方法可
f# - 如何做 Seq.unzip
我有一个 foo: seq 我想拆分元组项，然后将结果存储到两个变量中，每个变量是 seq 我想知道是否有更漂亮的方法来做到这一点，例如 let item1, item2 = foo |> ?????
斯卡拉/猫 : How to unzip an NonEmptyList
标准库在List上提供了unzip方法: scala>val l = List((1, "one"), (2, "two"), (3, "three"), (4, "four"), (5, "five
c - 迷你压缩包 : Unzip from buffer?
Minizip 有没有办法直接从缓冲区中提取文件？通常你会使用一个 unzFile 实例，但这对我来说不是一个选项(我直接在缓冲区中获取压缩数据，我不从磁盘读取它)。最佳答案来自 the auth
jodd.io.ZipUtil.unzip()方法的使用及代码示例
本文整理了Java中jodd.io.ZipUtil.unzip()方法的一些代码示例，展示了ZipUtil.unzip()的具体用法。这些代码示例主要来源于Github/Stackoverflow/M
Python:为什么使用 zip(*) 而不是 unzip()？
关闭。这个问题是opinion-based .它目前不接受答案。想改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 6年前关闭。 Improve this
error-handling - ML。 “Unzipping”元组列表。
因此，我有这个元组列表(n = 2)，我应该“解压”巫婆，然后创建一个新的列表，如下所示:对于类似val的元组列表，它=(1，“一个”):: (2，“two”):: nil:(int，string)a
rust - 如何在 .unzip() 返回的每个迭代器上使用 .collect()？
我有以下代码，其中 fac 返回 (MyType, OtherType): let l = (-1..13).map(|x| { fac(x).0 }).collect::>(); 它有效，但
linux - 在 unzip 命令中使用带有 "*"的路径
我有几个zip文件，我想在其他路径中解压缩，只解压缩具有某些特征的文件，所以我在linux中执行以下命令: unzip -q -o ./path1/*/"*.zip" Key/* -d /path2/
c++ - 我如何在阅读时 "unzip"gzip 流
我的程序使用 HTTP 通过网络读取 gzipped 文件。我需要我的程序能够解压缩内容并解析它，即使不是所有的 gzip 文件都到达了。可以吗？如果是这样，可以用 C++ 完成吗？如果是，怎么
linux - 为什么 UnZip 提取最后一个串联的 ZIP？
我发现以下行为出乎意料: $ mkdir tmp && cd tmp/ $ for example in a b c ; do echo $example > $example.txt ; done
javascript - 如何知道 npm `unzip` 模块何时完成解压缩文件？
我正在使用 npm 的 unzip 模块来提取 zip 存档的内容。我需要知道它何时完成提取以及文件已完全写入磁盘。我的代码: fs.createReadStream('master.zip').p
io.fabric8.utils.Zips.unzip()方法的使用及代码示例
本文整理了Java中io.fabric8.utils.Zips.unzip()方法的一些代码示例，展示了Zips.unzip()的具体用法。这些代码示例主要来源于Github/Stackoverflo
org.jboss.as.patching.ZipUtils.unzip()方法的使用及代码示例
本文整理了Java中org.jboss.as.patching.ZipUtils.unzip()方法的一些代码示例，展示了ZipUtils.unzip()的具体用法。这些代码示例主要来源于Github

首页

博学

6Ren·AI

商城

python - PySpark 解压文件 : Which is a good approach for unzipping files and storing the csv files into a Delta Table?