gpt4 book ai didi

数据 block :将 Spark 数据帧直接写入 excel

转载 作者:行者123 更新时间:2023-12-04 01:00:02 26 4
gpt4 key购买 nike

有什么方法可以将 spark 数据帧直接写入 xls/xlsx 格式????

网络中的大多数示例都显示了 Pandas 数据框的示例。

但我想使用 spark 数据框来处理我的数据。任何想法 ?

最佳答案

我假设因为您有“databricks”标签,所以您想要在 databricks 文件存储中创建一个 .xlsx 文件,并且您正在 databricks notebook 中运行代码。我还将假设您的笔记本正在运行 python。

没有直接的方法可以从 spark 数据框中保存 excel 文档。但是,您可以将 spark 数据帧转换为 Pandas 数据帧,然后从那里导出。我们需要从安装 xlsxwriter 包开始。您可以使用 databricks utilites 命令为您的笔记本环境执行此操作:

dbutils.library.installPyPI('xlsxwriter')
dbutils.library.restartPython()

我在将 excel 文件直接保存到 dbfs 时遇到了一些权限问题。一个快速的解决方法是保存到集群的默认目录,然后 sudo 将文件移动到 dbfs。下面是一些示例代码:
# Creating dummy spark dataframe
spark_df = spark.sql('SELECT * FROM default.test_delta LIMIT 100')

# Converting spark dataframe to pandas dataframe
pandas_df = spark_df.toPandas()

# Exporting pandas dataframe to xlsx file
pandas_df.to_excel('excel_test.xlsx', engine='xlsxwriter')

然后在一个新命令中,使用 %sh 指定要在 shell 中运行的命令:
%sh
sudo mv excel_test.xlsx /dbfs/mnt/data/

关于数据 block :将 Spark 数据帧直接写入 excel,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59107489/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com