azure - Spark 流访问 azure Blob-6ren

azure - Spark 流访问 azure Blob

转载作者：行者123 更新时间：2023-12-02 20:49:48

26

4

我试图将我的 azure Blob存储注册到我的Spark Streaming中，但收到此代码和错误:-

码:-

SparkConf sparkConf = new SparkConf().setAppName("JavaNetworkWordCount");
        JavaStreamingContext ssc = new JavaStreamingContext(sparkConf, Durations.seconds(1));
        ssc.textFileStream("wasb[s]://mycontainer@rtest.blob.core.windows.net/");
        ssc.start();
        ssc.awaitTermination();

不确定WASB链接的路径应该是什么

https://docs.microsoft.com/en-us/azure/hdinsight/hdinsight-hadoop-use-blob-storage#address-files-in-azure-storage

链接说我应该给出一个路径，但是我的容器没有任何路径。图像直接存储在容器中。

错误:-

java.lang.IllegalArgumentException: requirement failed: No output operations registered, so nothing to execute
    at scala.Predef$.require(Predef.scala:224)
    at org.apache.spark.streaming.DStreamGraph.validate(DStreamGraph.scala:163)
    at org.apache.spark.streaming.StreamingContext.validate(StreamingContext.scala:513)
    at org.apache.spark.streaming.StreamingContext.liftedTree1$1(StreamingContext.scala:573)
    at org.apache.spark.streaming.StreamingContext.start(StreamingContext.scala:572)
    at org.apache.spark.streaming.api.java.JavaStreamingContext.start(JavaStreamingContext.scala:554)
    at org.bnr.process_panos.JavaNetworkWordCount.main(JavaNetworkWordCount.java:43)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:736)
    at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:185)
    at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:210)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:124)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

最佳答案

您可以使用相对路径或绝对路径。例如，可以使用以下一种方法来引用HDInsight群集随附的hadoop-mapreduce-examples.jar文件:

示例1 :wasb://mycontainer@myaccount.blob.core.windows.net/example/jars/hadoop-mapreduce-examples.jar

示例2: wasb:///example/jars/hadoop-mapreduce-examples.jar

Example3 :/example/jars/hadoop-mapreduce-examples.jar

如果没有在DStream上使用输出运算符，则会发生以下错误消息，而不会调用任何计算。您将需要在流上调用以下任何方法。

打印()

foreachRDD(功能)

saveAsObjectFiles(前缀，[后缀])

saveAsTextFiles(前缀，[后缀])

saveAsHadoopFiles(前缀，[后缀])

有关更多详细信息，请参见“http://spark.apache.org/docs/latest/streaming-programming-guide.html#output-operations”。

关于azure - Spark 流访问 azure Blob ，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46352183/

26

4

0

文章推荐： docker - Docker-无法从同一.sh文件执行多个docker run命令

文章推荐： sipml5 中的 Asterisk 调用 ID

文章推荐： docker - Docker构建:来自一层的内容是否保留在下一层？

python - Azure Blob 存储 - 可以列出 blob，但不能删除 blob
我正在尝试从 Azure 容器中删除 blob。我能够连接到它并列出此问题中代码后面的所有 blob:Upload and Delete Azure Storage Blob using azure-
python - Azure Blob 存储 - 可以列出 blob，但不能删除 blob
我正在尝试从 Azure 容器中删除 blob。我能够连接到它并列出此问题中代码后面的所有 blob:Upload and Delete Azure Storage Blob using azure-
Azure blob 错误 :The specified blob does not exist, 但 Blob 存在
运行我的 azure 函数(用于读取 azure blob 存储)后出现错误。错误是 ID 0dad768d-36d4-4c1a-85ae-2a5122533b3c fail: Func
Azure blob 错误 :The specified blob does not exist, 但 Blob 存在
运行我的 azure 函数(用于读取 azure blob 存储)后出现错误。错误是 ID 0dad768d-36d4-4c1a-85ae-2a5122533b3c fail: Func
c# - Azure Blob 存储 - 上传 Blob 后如何获取 Blob 存储 ID？
我正在使用 C# 控制台应用程序 (.NET Core 3.1) 从 Azure Blob 存储读取大量图像文件并生成这些图像的缩略图。新图像将保存回 Azure，并将 Blob ID 存储在我们的数
c# - 如何使用 Azure.Storage.Blobs BlobClient 检索 Blob 目录路径中的 Blob？
我没有在网上看到任何有关如何获取位于 BlobContainerClient 内特定目录内的所有 blob 的示例。以前，我使用的是 Microsoft.Azure.Storage 软件包，但这些软
c# - Azure Blob 存储 - 上传 Blob 后如何获取 Blob 存储 ID？
我正在使用 C# 控制台应用程序 (.NET Core 3.1) 从 Azure Blob 存储读取大量图像文件并生成这些图像的缩略图。新图像将保存回 Azure，并将 Blob ID 存储在我们的数
c# - 如何使用 Azure.Storage.Blobs BlobClient 检索 Blob 目录路径中的 Blob？
我没有在网上看到任何有关如何获取位于 BlobContainerClient 内特定目录内的所有 blob 的示例。以前，我使用的是 Microsoft.Azure.Storage 软件包，但这些软
javascript - 如何使用 Azure Blob 服务将 Blob 上传到 Azure Blob 存储
我正在编写一些代码，允许用户使用麦克风录制自己的声音，然后将录音上传到 Azure Blob 存储。为了录制音频，我使用类似于下面的代码 let recordedBlobs = []; this.m
azure - Golang azure blob 存储，0b blob 并覆盖下载的 blob 数据
当前使用:https://github.com/Azure/azure-sdk-for-go 概述:我当前正在从 azure blob 存储中下载一个 blob，解析该 blob，然后将转录的 blo
blob - 二进制文件和 BLOB 之间的区别
正在观看 this video about how to design Tinder ，在 06:50 提出了关于文件与 BLOBS 的观点。我想知道大二进制文件和 BLOB(二进制大对象)之间有什
java - 如何创建 blob/blob？
目前我有 hibernate JPA HSQLDB 来自动创建我的数据库表。如何告诉 JPA 或 Hibernate 将字符串保存为 clob/blob 字段？即一个很长的字符串。到目前为止我找不
python - 消除一维阵列中的 Blob / Blob
我有一个一维 NumPy 数组，其中包含一些“坏”值。我想剔除它们。每个坏值的邻居只是“顽皮”，但我也想剔除它们。对不良值的可靠测试是询问: arr<0.1 但是，(我能想到的)对于顽皮值的唯一可
Azure Blob 存储 REST API : Why "Get Blob Properties" and "Get Blob" requests are the same?
查看有关获取 Blob 和获取 Blob 属性的 MSDN 文档。两个请求看起来相同 "https://myaccount.blob.core.windows.net/mycontainer/mybl
azure-blob-storage - 无法通过 SAS 使用 azcopy 从一个 blob 到另一个 blob
我有 2 个 Blob 存储，一个在 eastus，一个在 canadaeast，我想将一个 .vhd 从 eastus 复制到 canadaeast。我去了 eastus，在我想要复制的 blob
azure - 拥有许多小型 Azure 存储 Blob 容器(每个容器都包含一些 Blob)更好，还是拥有一个包含大量 Blob 的大型容器更好？
所以场景如下: 我有多个 Web 服务实例，用于将 blob 数据写入 Azure 存储。我需要能够根据收到的时间将 blob 分组到容器(或虚拟目录)中。偶尔(最坏的情况是每天)旧的 blob 会被
angular - 仅列出 Azure Blob 存储中 100 个 Blob 中的 10 个 Blob
在 Azure Blobstorage 中，我有 100 个 Blob，但我只想列出前 10 个 Blob。我该怎么做？我写的{maxResults:1}没有任何效果，它仍然列出了我所有的 Blob
azure - 使用 Azure SDK v1.8 创建的 Blob 是页 Blob 还是 block Blob？
我们当前的代码使用 Azure SDK 1.8，为了生成共享访问签名，它将首先调用 CloudBlobContainer.GetBlobReference()，然后调用 CloudBlob.GetSh
blob - 隐藏 Azure Blob 网址
我有大量文件存储在公共(public) Azure blob 容器中，所有这些文件都通过我的 ASP.NET MVC Web 应用程序中的 HTML 直接引用。例如，blob 存储中一个图像的路径如下
JavaScript Azure Blob 存储移动 Blob
我有一个 NodeJS 后端，它使用 Microsoft 的官方 Blob 存储库 (@azure/storage-blob) 来管理我的 Blob 存储: https://www.npmjs.com

首页

博学

6Ren·AI

商城

azure - Spark 流访问 azure Blob