gpt4 book ai didi

python - 如何使用 Spark (pyspark) 编写 Parquet 文件?

转载 作者:太空狗 更新时间:2023-10-29 17:39:16 31 4
gpt4 key购买 nike

我是 Spark 的新手,我一直在尝试将 Dataframe 转换为 Spark 中的 parquet 文件,但我还没有成功。 documentation说我可以使用 write.parquet 函数来创建文件。但是,当我运行脚本时,它显示:AttributeError: 'RDD' object has no attribute 'write'

from pyspark import SparkContext
sc = SparkContext("local", "Protob Conversion to Parquet ")

# spark is an existing SparkSession
df = sc.textFile("/temp/proto_temp.csv")

# Displays the content of the DataFrame to stdout
df.write.parquet("/output/proto.parquet")

你知道怎么做吗?

我使用的 spark 版本是为 Hadoop 2.7.3 构建的 Spark 2.0.1。

最佳答案

错误是由于 SparkContexttextFile 方法返回了一个 RDD 而我需要的是一个 DataFrame

SparkSession 在底层有一个 SQLContext。所以我需要使用 DataFrameReader 正确读取 CSV 文件,然后再将其转换为 parquet 文件。

from pyspark.sql import SparkSession

spark = SparkSession \
.builder \
.appName("Protob Conversion to Parquet") \
.config("spark.some.config.option", "some-value") \
.getOrCreate()

# read csv
df = spark.read.csv("/temp/proto_temp.csv")

# Displays the content of the DataFrame to stdout
df.show()

df.write.parquet("output/proto.parquet")

关于python - 如何使用 Spark (pyspark) 编写 Parquet 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42022890/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com