python - 使用pyspark从s3位置读取 Parquet 文件的文件夹到pyspark数据框-6ren

python - 使用pyspark从s3位置读取 Parquet 文件的文件夹到pyspark数据框

转载作者：行者123 更新时间：2023-12-02 19:54:51

24

4

我想将s3存储桶poc/folderName上的myBucketName文件夹中存在的某些拼花地板文件读取到pyspark数据帧。我使用pyspark v2.4.3相同。

下面是我正在使用的代码

    sc = SparkContext.getOrCreate()
    sc._jsc.hadoopConfiguration().set("fs.s3.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
    sc._jsc.hadoopConfiguration().set("fs.s3a.awsAccessKeyId", 'id')
    sc._jsc.hadoopConfiguration().set("fs.s3a.awsSecretAccessKey", 'sid')
    sqlContext = SQLContext(sc)
    parquetDF = sqlContext.read.parquet("s3a://myBucketName/poc/folderName")

我已经使用命令pyspark --packages org.apache.hadoop:hadoop-aws:3.3.0下载了hadoop-aws软件包，但是当我在上面的代码中运行时，会收到以下错误消息。

An error occurred while calling o825.parquet.
: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3a.S3AFileSystem not found
    at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2195)
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2654)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2667)

我在这里做错了什么？
我正在Windows 10上使用Anaconda和spyder运行python代码

最佳答案

需要将开源Hadoop S3驱动程序的Maven坐标作为软件包依赖项添加:

spark-submit --packages org.apache.hadoop:hadoop-aws:2.7.0

请注意，以上软件包版本与已安装的适用于Java的AWS开发工具包版本相关。

在Spark应用程序的代码中，可能还需要以下内容:

hadoop_conf = spark.sparkContext._jsc.hadoopConfiguration()
hadoop_conf.set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
hadoop_conf.set("fs.s3a.access.key", access_id)
hadoop_conf.set("fs.s3a.secret.key", access_key)

请注意，在使用开源Hadoop驱动程序时，S3 URI方案是s3a而不是s3(在EMR和Amazon专有的EMRFS上使用Spark时就是这样)。例如s3a:// bucket-name /

归功于 danielchalef

关于python - 使用pyspark从s3位置读取 Parquet 文件的文件夹到pyspark数据框，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58340793/

24

4

0

文章推荐： dataframe - 删除HDFS文件中的数据并调整Spark

文章推荐： hadoop - 从Hive与Druid互动时出错

netbeans - NetBeans 6.8添加了“添加JAR/文件夹”文件夹，但该软件包不存在
我在使用NetBeans 6.8时遇到以下问题。我通过项目属性->库->编译选项卡->添加JAR /文件夹添加带有jar的文件夹。在下一个窗口中，我选择文件夹，然后选择“复制到库文件夹”。但是，我仍然
url-rewriting - Web.config 将一个域重定向到非 https 文件夹，将另一个域重定向到 https 文件夹
我的网站有一个域别名。我想知道如何将 domainA.ext 的请求重定向到 https://domainA.ext/folderA和对 domainB.ext 的请求到 http://domainB
Android 创建自定义菜单(和自定义 res/menu 文件夹，没有 res/menu 文件夹)
我应该在 Eclipse 中构建的 Android 项目中创建自己的自定义菜单文件夹吗？例如，我想创建一种出现在所有 Activity 中的标题。我知道菜单应该在 res/menu 文件夹中的 XML
asp.net-mvc - 如何设置或指定 ASP.NET MVC 使用的 Controllers 文件夹，而不是默认的 Controllers 文件夹？
我正在使用 VS2008 和 .net 3.5。我在我的解决方案中创建了一个类库(Myproject.Controllers)。在这个类下，我添加了一个 Controllers 文件夹。在文件夹中我添
visual-studio-2012 - 如何在 VS2012 构建后步骤中获取 Visual Studio 2012 AddIns 文件夹(或当前用户的 "Documents"文件夹)？
我有一个包含生成后步骤的 Visual Studio 2012 扩展项目，我想在其中将 .dll 和 .AddIn 文件复制到当前用户的 Visual Studio 2012 AddIns 文件夹中。
Bash脚本根据文件大小更改 move 文件夹？
我在专有的 linux 发行版中有一些自动下载。他们去临时暂存盘。我想在它们完成后将它们 move 到主 RAID 阵列。我能看到的最好方法是检查磁盘上的文件夹，看看内容是否在最后一分钟发生了变化。
svn - 合并时忽略文件/文件夹
我目前正在使用 SVN 对我的软件项目进行版本控制。在一个正在进行的项目中，我有主干，用于客户的共同功能和规范以及分支，用于客户特定的。有没有办法在每次执行此类操作时标记一些不应合并到分支中的文
shell - 如何排除要删除的文件/文件夹
这个问题在这里已经有了答案: How to exclude a directory in find . command (45 个回答) 8 年前关闭。如何删除文件夹中的所有内容并排除特定文件夹和文
java - 创建文件/文件夹
如何在特定目录中创建具有当前日期和时间的文件夹或文件？ DateTimeFormatter f = DateTimeFormatter.ofPattern("uuuuMMdd HHmmss") ; L
sublimetext3 - 如何在系统文件资源管理器中打开文件/文件夹？
有没有办法在系统文件资源管理器的左侧“文件夹”栏中打开文件或文件夹？如果没有这个，我必须打开文件资源管理器并一直导航到该文件夹所在的位置才能操作文件，这确实很不方便。对于大多数带有这样导航栏的工具
去获取不下载到 SRC 文件夹
预期:我使用 go get 安装包，它在 src 文件夹中创建了所有必要的文件夹，但它们只出现在 pkg/mod 文件夹中，我不能使用它们。现实:它说它正在下载，完成，然后什么都没有。一切都在 W
PowerShell:从压缩文件中提取特定文件/文件夹
说 foo.zip包含: a b c |- c1.exe |- c2.dll |- c3.dll 哪里a, b, c是文件夹。如果我 Expand-Archive .\foo.zip -Destin
magento var 文件夹
不久前我正在删除 var 文件夹中 Magento 的缓存。我可能是错的，但我认为我犯了一个错误，而不是删除 var/cache 中的所有内容，而是意外删除了 var 中的所有内容。 Magento
svn - 通过Tortoise从SVN删除文件/文件夹: how to?
我在 svn 存储库的单独文件夹中有一些代码项目。现在我在删除文件时遇到一些问题:大多数时候一切顺利，但有时当我从磁盘删除文件或文件夹时， checkin 过程会出现各种错误。所以我想知道:在sv
r - 自动删除文件/文件夹
有没有什么方法可以用很少的R命令行自动删除所有文件或文件夹？我知道 unlink() 或 file.remove() 函数，但对于这些函数，您需要定义一个字符向量，其中包含您想要的文件的所有名称删除。
powershell - 获取未在特定日期范围内写入的文件/文件夹
用于在文件夹中查找不符合Get-Childitem的LastWriteTime过滤器日期范围标准的文件的powershell命令是什么？因此，请检查目录中是否包含不包含在01/10/2012(十月1
NSIS 卸载程序不会删除文件/文件夹
我正在为我工作的公司内部使用的应用程序之一编写 NSIS 安装程序，安装过程工作正常，所有 REG 键都已创建，文件夹和服务也没有问题，该应用程序使用。出于某种我无法理解的原因，卸载过程不起作用。
excel - 文件夹.文件的相对路径
我有一个 Excel 文件，并且在同一文件夹中还有一个包含我想要包含的 CSV 文件的文件夹。使用“来自文件夹”查询，第一步将给出以下查询: = Folder.Files("D:\OneDrive\D
docker - 如何创建XFS格式的磁盘/文件夹
我在docker中玩ScyllaDB。为了使ScyllaDB在docker生产设置中最有效地运行，它需要一个XFS格式的磁盘。您知道如何在Linux和MacO中创建XFS容器卷，磁盘文件吗？谢谢
带乘法的 Haskell 文件夹
我应该编写一个函数，其中包含之前每次与该数字相乘的乘积基本上是这样的: > productFromLeftToRight [2,3,4,5] [120,60,20,5] 我应该使用高阶函数，例如折叠

首页

博学

6Ren·AI

商城

python - 使用pyspark从s3位置读取 Parquet 文件的文件夹到pyspark数据框