windows - 如何让 Anaconda Pyspark Jupyter 在 Windows 下使用 S3-6ren

windows - 如何让 Anaconda Pyspark Jupyter 在 Windows 下使用 S3

转载作者：行者123 更新时间：2023-12-02 22:02:06

30

4

我的目标是拥有一个支持 pyspark 和 s3/s3a 的工作 jupyter notebook。我已经到了让 pyspark 工作的地步，但无论我用多少谷歌搜索，我似乎都无法让它支持 s3 或 s3a。大部分信息是针对 unix/linux 的，或者假设太多。请帮忙。以下是我迄今为止采取的步骤。

关注 https://medium.com/@naomi.fridman/install-pyspark-to-run-on-jupyter-notebook-on-windows-4ec2009de21f

已安装 JAVA 8(Windowsx64 版本)

根据上述站点设置 JAVA_HOME 变量并添加 PATH 变量(使用较新版本的路径)

已下载 Apache Spark 2.4.4(2019 年 8 月 30 日)PreBuilt for Apache Hadoop 2.7

解压到 C:\Spark (得到 spark-2.4.4-bin-hadoop2.7.tar)

将其解压缩到 C:\Spark(获取文件夹 spark-2.4.4-bin-hadoop2.7)

设置更多环境变量并将 bin 文件夹添加到 PATH 变量中，根据上面的站点

根据上面的站点下载了 Windows 64 位 winutils.exe 文件，运行它告诉我运行的 cmd 命令。我在 C:\Spark\spark-2.4.4-bin-hadoop2.7 文件夹及其 bin 文件夹中留下了一份副本。

运行和测试 Anaconda spark - 成功

接下来是让 pyspark 在 Jupyter 中工作

在 Anaconda 提示中，我安装了 findspark "conda install -c conda-forge findspark"

运行后

findspark.init()
findspark.find()
import pyspark
findspark.find()

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
conf = pyspark.SparkConf().setAppName('appName').setMaster('local')
sc = pyspark.SparkContext(conf=conf)
spark = SparkSession(sc)

万岁，pyspark 在 Jupyter 下运行，但我需要这个自动运行作为内核的一部分，其中我现在只有 python3 的选项。

所以我用谷歌搜索，发现我需要在“C:\ProgramData\Anaconda3\share\jupyter\kernels”下创建一个目录，所以我复制并重命名现有的 python3 文件夹，然后将“display_name”:更改为“pyspark” ，我应该能够在那里添加一行像“--profile = myCustomProfile”但是一直失败(没有找到模块？)所以我放弃了配置文件(这里也有帮助吗？)

然后我在“C:\Users\Admin.ipython\profile_default\startup”下创建了一个 00-pyspark-setup.py 文件，我读到它是一种 autoexec.bat 之类的东西，所以我将上面的 findspark 和 sparkContext 代码放入那里

这是我卡住的地方。主要问题是我无法通过 spark.read.load("s3:/xx") 命令访问 s3/s3a/s3n，我也无法运行 %%configure -f 之类的东西，但这是一个较小的问题。

我已经通过 boto3 阅读了解决方案，但这是否允许 spark.read.load 直接从 s3？听起来不像。我可能是错的

另一个涉及从 maven 下载 aws-java-sdk-1.7.4.jar 和 hadoop-aws-2.7.1.jar 在某处(或 2 个不同的地方)添加这些行。这应该给我想要的结果。

spark.executor.extraClassPath      C:\spark\maven\aws-java-sdk-1.7.4.jar;C:\spark\maven\hadoop-aws-2.7.1.jar
spark.driver.extraClassPath       C:\spark\maven\aws-java-sdk-1.7.4.jar;C:\spark\maven\hadoop-aws-2.7.1.jar

hadoop_conf = spark.sparkContext._jsc.hadoopConfiguration()
hadoop_conf.set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
hadoop_conf.set("fs.s3a.access.key", "aKey")
hadoop_conf.set("fs.s3a.secret.key", "sKey"

谁能帮我？我想我必须创建自己的“C:\spark\spark-2.4.4-bin-hadoop2.7\conf\spark-defaults.conf”并在其中添加 spark.driver 代码，但它不起作用，我来自 Jupyter 的错误仍然存在，大多数在线答案似乎都在引用 linux 路径，但在这里我需要指定驱动器，不是吗？

Py4JJavaError:调用 o84.csv 时出错。
:java.lang.RuntimeException:java.lang.ClassNotFoundException:类org.apache.hadoop.fs.s3a.S3AFileSystem找不到
从
C:\spark\spark-2.4.4-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip\py4j\protocol.py in get_return_value(answer, gateway_client, target_id, name)

最佳答案

我找到了我的答案。除了 Jupyter 的配置文件/内核部分。

我发现并关注
https://medium.com/@sivachaitanya/accessing-aws-s3-from-pyspark-standalone-cluster-6ef0580e3c08

我还从 spark-defaults.conf 中回溯并删除了 maven jar 及其行，它仍然有效。看来我只需要将以下内容添加到 00-pyspark-setup.py 文件中

import os
os.environ['PYSPARK_SUBMIT_ARGS'] = "--packages=org.apache.hadoop:hadoop-aws:2.7.3 pyspark-shell"

import findspark
findspark.init()
findspark.find()
import pyspark

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
conf = pyspark.SparkConf().setAppName('appName').setMaster('local')

sc=SparkContext(conf=conf)
sc.setSystemProperty("com.amazonaws.services.s3.enableV4", "true")

hadoopConf = sc._jsc.hadoopConfiguration()
hadoopConf.set("fs.s3a.endpoint", "s3-ap-northeast-1.amazonaws.com")
hadoopConf.set("com.amazonaws.services.s3a.enableV4", "true")

spark = SparkSession(sc)

import configparser
config = configparser.ConfigParser()
config.read(os.path.expanduser("~/.aws/credentials"))
access_id = config.get("default", "aws_access_key_id") 
access_key = config.get("default", "aws_secret_access_key")

spark.sparkContext._jsc.hadoopConfiguration().set("fs.s3a.access.key", access_id)
spark.sparkContext._jsc.hadoopConfiguration().set("fs.s3a.secret.key", access_key)

除了将端点更改为我所在的区域。然后，

spark.read.csv("s3a:/myBucket/*").show()

工作!

关于windows - 如何让 Anaconda Pyspark Jupyter 在 Windows 下使用 S3，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60092354/

30

4

0

文章推荐： java - hadoop版本与Java版本的最佳匹配是什么

文章推荐： javascript - 云函数速率限制器，不返回数据

javascript - 为什么我能够在控制台 window.window.window.window 中执行此操作并返回 window ？
为什么我可以在控制台 window.window.window.window 中执行此操作并无限追加 .window 并返回 DOM 窗口？最佳答案因为 window 对象有一个指向它自身的 wi
windows - Windows 管理员和 Windows 系统用户有什么区别
Windows管理员用户和系统用户之间有什么权限区别吗？有些时候，我必须将 cmd 窗口提升到系统权限才能删除一些文件。这可能是因为系统用户锁定了文件，或者系统用户可能具有更高的访问权限，我希望找出
windows - Windows 桌面应用程序和 Windows 应用商店应用程序有什么区别
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
windows - Windows 服务和 Windows 进程之间有什么区别？
Windows 服务和 Windows 进程之间的区别是什么？最佳答案服务是真正的 Windows 进程，没有区别。服务的唯一特殊之处在于它由操作系统启动并在单独的 session 中运行。一个独
windows - 如何找出哪个用户以编程方式将打印命令发送到 windows/windows 服务器？
我有一个 Windows 网络 (peer-2-peer) 以及 Active Directory，我需要记录向服务器发送任何类型打印的用户的名称。我想编写一个程序来记录他们的用户名和/或他们各自的
windows - Windows 服务可以安装另一个 Windows 服务吗？
当我让一个 Windows 服务尝试安装另一个 Windows 服务时遇到问题。具体来说，我有一个 TeamCity 代理在 Windows 2008 AWS 实例上为我运行测试。这些测试是用 Ja
windows - Windows 服务可以接收 Windows 消息吗？
我创建了一个应用程序来接收广播的 Windows 消息，效果很好。当我把它变成一个服务、安装它并启动服务时，该服务没有收到消息。最佳答案服务可能必须被授予访问桌面的权限。从服务属性、“登录”选项卡
windows - Windows 启动时启动我的应用程序(所有版本的 Windows)？
我正在使用 Delphi 2010 编写应用程序。我希望在 Windows 启动时启动我的应用程序。我需要它在最新版本的 Windows XP、7.0 和最新的服务器中工作。将其存储在以下关键工作下
windows-7 - Windows XP、Windows Vista 和 Windows 7 上的不同文件打开对话框
我想开发一个适用于所有三个版本的 Windows XP、Vista 和 7 的应用程序。该应用程序允许人们选择要打开的文件，并允许他们在某些操作后保存文件。三个版本的 Windows 中的每一个都有不
windows -\Windows\versus\Windows\System32 - 文件位置约定
对于\Windows\中的文件类型与\Windows\System32 中的文件类型是否有标准约定？我正在开发一个 SDK，其中包含各种 DLL、帮助程序 exe 和 Windows 服务 exe。
windows - 如何将 Windows 登录过程延迟到 Windows 服务的偶数
要求是，必须在 WINDOWS7 机器上配置自动登录，但是这个自动登录应该等待(即延迟)直到另一个 Windows 服务发出继续自动登录的信号。我使用了自定义凭据提供程序，它在其中等待另一个 Win
windows - Windows/Windows CE的串行I/O重叠/不重叠
很抱歉，这不是一个大问题，而是更多的帮助人们解决这些特定问题的方法。我正在解决的问题要求使用串行I/O，但主要在Windows CE 6.0下运行。但是，最近有人问我是否也可以在Windows下运行该
windows - 为什么 Windows 32 位称为 Windows x86 而不是 Windows x32？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
windows - 用于检查 Windows 服务是否正在运行以及是否不启动该服务的脚本。 Windows 2000
不幸的是 SC 命令在 W2000 上还不可用，所以我不能使用它。我正在尝试检查服务是否在 W2000 服务器上运行，如果它没有运行，脚本应该能够启动该服务。如何在 Windows 2000 上执
windows - 在登录到 Windows 之前启动 Windows 窗体应用程序
如何在登录到 Windows 之前启动 Windows 窗体应用程序？是否可以在登录到 Windows 之前启动 Windows 窗体应用程序？如果不是，我是否有机会在登录前启动 Windows 服务
windows - 使用 Windows 任务计划程序调用 Windows 服务时出现问题
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
windows - 确定操作系统类型的环境变量(Windows XP、Windows 7)
我想在 XML 文件中区分 Windows XP 和 Windows 7。我想我会在 XML 中为它使用一个环境变量。但是我找不到在 Windows 中定义的任何系统环境变量来提供此信息。我看到了
windows - 如何检查是否安装了 Windows 通讯簿或 Windows 联系人
有谁知道我可以在注册表中的哪个位置检查机器上是否安装了这些应用程序: Windows 通讯录 Windows 联系人最佳答案来自 Microsoft:我知道它说的是 win 95，但 reg 是一
windows - 通过另一台 Windows 服务器上的批处理文件在远程 Windows 服务器上执行批处理文件
我正在尝试从我的 Windows 服务器调用放置在远程 Windows 服务器上的批处理文件。我在远程服务器上安装了 freeSSHd。我尝试使用 putty/plink 但没有结果。我使用的命令语
windows - 从 Windows 服务更改显示分辨率 (Windows 7)
( 大家好。我是 Windows 编程的新手，所以如果已经有人问过我，我提前道歉，我只是不知道要搜索什么，但这个问题一直让我发疯，我知道有人可能真的很容易回答这个问题。) 我的公司有一个在 Windo

首页

博学

6Ren·AI

商城

windows - 如何让 Anaconda Pyspark Jupyter 在 Windows 下使用 S3