gpt4 book ai didi

apache-spark - 获取 StructType 格式的 Parquet 文件的架构

转载 作者:行者123 更新时间:2023-12-02 18:53:25 29 4
gpt4 key购买 nike

我正在尝试读取 Parquet 文件来保存架构,然后在读取 csv 文件时使用此架构将其分配给数据帧。

文件fee.parquetloan__fee.csv内容相同,但文件格式不同。

下面是我的代码 - 我收到一个错误,架构应该是“StructType”。如何将从 parquet 文件读取的架构转换为 StructType

from pyarrow.parquet import ParquetFile
import pyarrow.parquet
fee_schema = pyarrow.parquet.read_schema("/dbfs/FileStore/fee.parquet", memory_map=True)

df_mod = spark.read.csv('/FileStore/loan__fee.csv', header="true", schema=fee_schema)

它给出错误:

TypeError: schema should be StructType or string

我尝试了一些选项,例如 fee_schema.to_string(show_schema_metadata = True) 但它不起作用并给出 ParseError。

感谢您的宝贵时间!

最佳答案

根据 mck 的建议,您可以使用 Spark.read.parquet 来获取架构 - 该命令只是从文件中获取元数据,而不是完全读取它。所以你会得到这样的东西:

src_df = spark.read.parquet("/FileStore/fee.parquet")
df_mod = spark.read.csv('/FileStore/loan__fee.csv', header="true",
schema=src_df.schema)

关于apache-spark - 获取 StructType 格式的 Parquet 文件的架构,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66457264/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com