- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个私有(private) Azure 存储帐户并在本地使用 PySpark,我想读取 Blob。设置如下:
access_key = <storage-account-access-key>
spark = SparkSession.builder.master('local').appName('app').getOrCreate()
spark.conf.set("fs.azure.account.<storage-account-name>.blob.core.windows.net", access_key)
sc = spark.sparkContext
sc._conf.setAll([("fs.azure.account.key.<storage-acccount-name>.blob.core.windows.net", access_key)])
csv_raw = sc.textFile('wasbs://<container-name>@<storage-account-name>.blob.core.windows.net/dir')
print(csv_raw.collect())
我使用spark.sparkContext.textFile()而不是spark.read.load()的原因是什么?我需要将数据作为 RDD 读入,以在转换为具有模式的数据帧之前进行一些数据清理/解析。这很奇怪,因为我可以使用 Spark.read.load() 将数据作为数据帧读取,因此 Spark session 中的设置是正确的。如上面的代码所示,我确实在sparkContext中手动设置了配置,以确保它在运行textFile方法之前具有此参数。但是,在使用spark.sparkContext.textFile()时出现身份验证错误:
“org.apache.hadoop.fs.azure.AzureException:在配置中找不到帐户的凭据...并且其容器...无法使用匿名凭据访问。”
请假设所有 jar 文件(hadoop-azure-3.3.0.jar、azure-storage-8.6.5.jar)均已使用 Spark-submit 正确加载,并请注意我使用的是 Spark 版本 3.1.1。
提前谢谢您!
最佳答案
对于 RDD API,您需要提供 Hadoop 配置 - 您现在使用的配置仅用于 Dataframe/Dataset API(请参阅 Databricks docs 作为引用)。
所以代替 fs.azure.account.key.<storage-acccount-name>.blob.core.windows.net
您需要添加spark.hadoop
给它:spark.hadoop.fs.azure.account.key.<storage-acccount-name>.blob.core.windows.net
关于azure - 无法从 Azure Blob 读取 : "org. apache.hadoop.fs.azure.AzureException:找不到 Azure 存储帐户的凭据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69535103/
我正在尝试在 Windows 上运行的小于 1GB 的 VM 上设置 YouTrack 和 TeamCity。使用率将非常低(用户和请求)。这是一个 POC 环境,如果它有效,我可能会将它推送到一个超
所以我在尝试使用 FORFILES 解决这个问题时遇到了麻烦。我正在尝试获取不超过 4 天的文件。所以基本上少于 4 天。然而,这似乎不太可能,因为/d -4 获取所有 4 天或更早的项目。 以下是我
如何从下面的 events 表中选择小于 15 分钟前创建的 events? CREATE TABLE events ( created_at timestamp NOT NULL DEFAU
Google Analytics Realtime提供 rt:minutesAgo ,可以过滤查询。 然而,它是一个维度而不是一个度量标准,<=不能在过滤器中使用。 假设我想在最后 n 分钟内获得一些
iOS 核心数据 - 严重的应用程序错误 - 尝试插入 nil 你好, 我的应用程序实际上运行稳定,但在极少数情况下它会崩溃并显示此错误消息... 2019-04-02 20:48:52.437172
我想制作一个 html div 以快速向右移动(例如不到 1 秒)并消失。然后1秒后再次直接出现在这个过程最开始div的位置。此过程将由单击按钮并重复 10 次触发。 我试图在 CSS 中使用过渡属性
我发现使用 TimeTrigger 是 Windows 10 (UWP) 上计划后台任务的方式。但是看起来我们需要给出的最小数字是 15 分钟。只是想知道,即使我们安排它在接下来的 1 分钟内运行,警
我必须在 1 秒内在屏幕上打印 2^20 行整数 printf 不够快,还有其他易于使用的快速输出替代方法吗? 每一行只包含 1 个整数。 我要求它用于竞争性编程问题,我必须将其源代码提交给法官。 最
我是一名优秀的程序员,十分优秀!