azure - 由于输入文件夹不存在，Synapse Spark 作业失败-6ren

azure - 由于输入文件夹不存在，Synapse Spark 作业失败

转载作者：行者123 更新时间：2023-12-02 06:56:06

24

4

如何对文件读取进行异常处理。

例如，我有一项每日作业将在上午 8:00 运行。它从 Azure 数据湖存储(第 2 代)读取文件。该路径类似于 2022/01/06/data.csv。因此该文件在所有日子里都不会填充到 ADLS 中。因此，只要文件未填充，作业就会失败。所以我尝试使用try-catch来处理异常。还有其他方法处理异常吗？

df1 = spark.read.format('csv').load(fileLocation)

最佳答案

总结您的问题:spark-job 失败，因为您指向的文件夹不存在。

在 Azure Synapse 上，mssparkutils非常适合这个。这就是您在 Scala 中执行此操作的方式(您也可以对 Python 执行类似操作)。这适用于笔记本以及 Spark/pyspark 批处理作业。


  def exists(f: String): Boolean = {
    try {
      mssparkutils.fs.ls(f)
      true
    } catch {
      case e: Exception => false
    }
  }


exists("valid/folder") // returns true
exists("abfss://<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="20434f4e5441494e45526053544f524147454143434f554e540e4446530e434f52450e57494e444f57530e4e4554" rel="noreferrer noopener nofollow">[email protected]</a>/valid/folder") // returns true

exists("invalid/folder") //returns false
exists("abfss://<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="92f1fdfce6f3fbfcf7e0d2e1e6fde0f3f5f7f3f1f1fde7fce6bcf6f4e1bcf1fde0f7bce5fbfcf6fde5e1bcfcf7e6" rel="noreferrer noopener nofollow">[email protected]</a>/invalid/folder") // returns false

// you can also do below for more info:
mssparkutils.fs.help()

如果存储帐户不是您的主链接存储帐户，您需要提供完整的 URL(abfss 路径)。

我更喜欢提供完整的 url(abfss 路径)，因为 synapse 帐户可以有多个链接的存储帐户。所以没有犯错的余地

关于azure - 由于输入文件夹不存在，Synapse Spark 作业失败，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/71126748/

24

4

0

文章推荐： azure - Bicep isHnsEnabled 无法更新

文章推荐： java - 对象数组内的对象数组

文章推荐： java - AsynTask 完成工作后返回函数值

Azure Synapse 分析 - Synapse 链接身份验证
当存储帐户访问 key 被禁用时，Dataverse 的突触链接运行正常。我们可以创建新记录，这里没有问题。但当存储帐户 key 被禁用时，它无法为 Dataverse 设置新的突触链接。有人以前见过
azure-synapse - 用于 Synapse 专用池的 OPENROWSET()？
是否有计划支持专用池的开放行集？优点: 比外部文件格式更多(更快)的解析器选项，例如行分隔符可以自动推断模式直接定义文件格式更方便最佳答案这是一个很棒的功能请求，安德斯。我看到您已经创建了一个
azure-synapse - 何时使用多个 azure synapse 工作区？
我有一个天蓝色的突触工作区，其中包含无服务器 SQL 池中的许多管道和外部表。所有这些都与一个特定项目相关。还有另外 2-3 个完全独立的项目正在进行中，需要突触工具集。我应该创建一个新的工作区，
azure-synapse - 何时使用多个 azure synapse 工作区？
我有一个天蓝色的突触工作区，其中包含无服务器 SQL 池中的许多管道和外部表。所有这些都与一个特定项目相关。还有另外 2-3 个完全独立的项目正在进行中，需要突触工具集。我应该创建一个新的工作区，
azure-synapse - 如何在 Azure Synapse 中使用 FOR XML 路径
能否请您帮助我在 Azure Synapse 中使用 FOR XML PATH。如果不是，还有什么选择。谢谢最佳答案如果您希望使用 FOR XML 来准备，例如动态数据透视查询的列名，那么 st
azure - Synapse UI 中缺少通过 azure cli 创建的 Synapse 触发器
编辑:这是一个连接到 git 存储库的工作区。如果我向处于“实时”模式的工作区添加触发器，触发器将显示。如何将触发器添加到设置到 git 存储库的工作区？使用 Azure Synapse，我在创建和
azure-synapse - 从专用 sql 池和无服务器 sql 池加入 Azure Synapse 中的数据
我在 AzureSynapse 无服务器池中定义了一个 View ，它使用 openrowset 获取数据。我在专用 sql 池中的表中也有数据。我可以做一个连接这两个表的 sql 查询吗？最佳答
azure - 如何将 Sql 查询结果从 Azure Synapse 笔记本传递到 Synapse Pipeline 中的下一个事件？
我在 Synapse 工作区中有一个主管道，其中有 2 个事件: 第一 - 笔记本事件第二 - If 条件事件对于第一个(Synapse 笔记本、spark 池、pyspark)，我有一个如下所示
azure - 如何将 Sql 查询结果从 Azure Synapse 笔记本传递到 Synapse Pipeline 中的下一个事件？
我在 Synapse 工作区中有一个主管道，其中有 2 个事件: 第一 - 笔记本事件第二 - If 条件事件对于第一个(Synapse 笔记本、spark 池、pyspark)，我有一个如下所示
azure - 如果在新项目中使用 Azure Synapse Analytics - 最好使用 Synapse Pipelines 而不是 ADF，还是有主要考虑因素？
我们将从本地迁移到 Azure，并将使用 Azure Synapse。我们的转换主要是从 SQL 存储过程的直接迁移开始。查看高级文档，我没有发现 ADF 和 Azure Synapse Pipel
azure - 为什么我可以连接到 Synapse 无服务器 SQL 池，但无法连接到同一 Synapse 工作区中的专用 SQL 池
最近，我们将专用 SQL 池部署到生产中的 Synapse 工作区。在开发中，我们可以访问无服务器 SQL 池和专用 SQL 池。但是，在生产中，我们可以访问无服务器 SQL 池，但无法访问专用 SQ
azure - 如何在 Azure Synapse 中克隆 SQL 数据库 - 尽管是 Synapse 管理员，但没有菜单选项
我正在尝试克隆 Synapse Serverless SQL 数据库，以便可以使用它进行测试。当我在 Synapse Studio 中单击 SQL 数据库时，没有克隆选项。 No 'Clone' o
azure - 如何在 Azure Synapse 中克隆 SQL 数据库 - 尽管是 Synapse 管理员，但没有菜单选项
我正在尝试克隆 Synapse Serverless SQL 数据库，以便可以使用它进行测试。当我在 Synapse Studio 中单击 SQL 数据库时，没有克隆选项。 No 'Clone' o
Does Azure Synapse Analytics Database designer do not support Delta format(Azure Synapse Analytics数据库设计器是否不支持Delta格式)
根据Doc。这是否意味着，目前数据库设计器不支持Delta格式来可视化地创建Lake数据库表？
sql - Azure Synapse Analytics(以前称为 SQL SW)与 Azure Synapse Analytics(工作区预览)
以下 Azure 服务之间有什么区别？ Azure Synapse Analytics(以前称为 SQL DW) Azure Synapse Analytics(专用链接中心预览版) Azure Sy
sql - Azure Synapse Analytics(以前称为 SQL SW)与 Azure Synapse Analytics(工作区预览)
以下 Azure 服务之间有什么区别？ Azure Synapse Analytics(以前称为 SQL DW) Azure Synapse Analytics(专用链接中心预览版) Azure Sy
runtime-error - 通过 Synapse Pipelines 执行 Azure Synapse Notebook 时访问 Key Vault 时出错
我正在尝试使用 Synapse Pipelines 中的 Notebook Activity 执行 Azure Synapse Notebook，它在调试 Pipelines 时不断出现错误，Note
Return the name with the maximum number of characters for each customer id. Working in Azure Synapse Analytics using SparkSQL(返回每个客户ID的最大字符数的名称。使用SparkSQL在Azure Synapse Analytics中工作)
我有一个表，由于名称列中的差异，它为相同的ID返回多个行。有些名字在名字后面加上中间字母，或者在姓氏后面加上后缀。在下面的示例中，我只想要第一行，因为它有完整的名称。。我尝试按名称长度进行排名，但因未
Return the name with the maximum number of characters for each customer id. Working in Azure Synapse Analytics using SparkSQL(返回每个客户ID的最大字符数的名称。使用SparkSQL在Azure Synapse Analytics中工作)
我有一个表，由于名称列中的差异，它为相同的ID返回多个行。有些名字在名字后面加上中间字母，或者在姓氏后面加上后缀。在下面的示例中，我只想要第一行，因为它有完整的名称。。我尝试按名称长度进行排名，但因未
Azure Synapse 工作区无法加载资源
我们在目录和订阅(我们将其称为目录_1 和订阅_1)下有不同的资源(存储帐户、逻辑应用、SQL 数据库、SQL Server、Synapse 工作区) 这些资源用于执行简单的 ETL 管道。我们希望

首页

博学

6Ren·AI

商城

azure - 由于输入文件夹不存在，Synapse Spark 作业失败