gpt4 book ai didi

apache-spark - 如何使用pyspark读取orc文件

转载 作者:行者123 更新时间:2023-12-04 03:05:34 33 4
gpt4 key购买 nike

spark有两种压缩文件格式。一种是 Parquet ,很容易阅读:

from pyspark.sql import HiveContext
hiveCtx = HiveContext(sc)
hiveCtx.parquetFile(parquetFile)

但对于 ocr 文件。我找不到一个很好的例子来告诉我如何使用 pyspark 阅读。

最佳答案

嗯,有两种方法:

Spark 2.x :

orc_df = spark.read.orc('python/test_support/sql/orc_partitioned')

Spark 1.6 :
df = hiveContext.read.orc('python/test_support/sql/orc_partitioned')

关于apache-spark - 如何使用pyspark读取orc文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44882087/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com