gpt4 book ai didi

amazon-web-services - 使用pyspark(spark 2.4)从S3读取csv作为spark数据帧

转载 作者:行者123 更新时间:2023-12-04 01:01:05 30 4
gpt4 key购买 nike

我想使用 pyspark 从 s3 (s3://test-bucket/testkey.csv) 读取一个 csv 文件作为 Spark 数据帧。我的集群在 spark 2.4 上运行。

我不需要任何 infer_schema,凭据 a.o.t。考虑到。并且 csv 文件不会作为胶水表被抓取。

您能否在此处粘贴基于 spark session 的 pyspark 代码并将其转换为 csv 到 spark 数据帧?

非常感谢提前和最好的问候

最佳答案

您可以设置某些属性如下

spark = SparkSession.builder \
.appName("app_name") \
.getOrCreate()

spark._jsc.hadoopConfiguration().set("fs.s3a.access.key", "mykey")
spark._jsc.hadoopConfiguration().set("fs.s3a.secret.key", "mysecret")
spark._jsc.hadoopConfiguration().set("fs.s3a.impl","org.apache.hadoop.fs.s3a.S3AFileSystem")
spark._jsc.hadoopConfiguration().set("com.amazonaws.services.s3.enableV4", "true")
spark._jsc.hadoopConfiguration().set("fs.s3a.aws.credentials.provider","org.apache.hadoop.fs.s3a.BasicAWSCredentialsProvider")
spark._jsc.hadoopConfiguration().set("fs.s3a.endpoint", "eu-west-3.amazonaws.com")

在此之后,您可以读取文件
csvDf = spark.read.csv("s3a://path/to/files/*.csv")
jsonDf = spark.read.json("s3a://path/to/files/*.json")

关于amazon-web-services - 使用pyspark(spark 2.4)从S3读取csv作为spark数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58269374/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com