gpt4 book ai didi

azure - Azure 高级存储中的 Databricks 自动加载器文件通知模式

转载 作者:行者123 更新时间:2023-12-03 03:29:49 25 4
gpt4 key购买 nike

我想使用Databricks AutoLoader读取文件流,数据量很大,所以我想使用文件通知模式(当我使用目录列表模式时,延迟很糟糕),但似乎我需要一个“存储队列”在 Azure 高级存储中不可用,当我尝试运行以下代码时,收到错误消息:UnknownHostException: .queue.core.windows.net

val manager = CloudFilesAzureResourceManager
.newManager
.option("cloudFiles.connectionString", "XXX")
.option("cloudFiles.resourceGroup", "XXX")
.option("cloudFiles.subscriptionId", "XXX")
.option("cloudFiles.tenantId", "XXX")
.option("cloudFiles.clientId", "XXX")
.option("cloudFiles.clientSecret","XXX")
.option("path", "abfss://<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="0850505048525252266c6e7b266b677a6d267f61666c677f7b26666d7c" rel="noreferrer noopener nofollow">[email protected]</a>/test") // required only for setUpNotificationServices
.create()

// Set up a queue and a topic subscribed to the path provided in the manager.
manager.setUpNotificationServices("XXX")

https://learn.microsoft.com/en-us/azure/databricks/ingestion/auto-loader/file-notification-mode#permissions-azure

有办法在 Azure 高级存储中使用文件通知模式吗?

最佳答案

使用自动加载器扩展自动加载器以摄取数百万个文件。选项使用通知允许您选择检测新文件的目录列表模式。

请提供创建云资源所需的权限。配置cloudFiles,如果使用则将通知设置为true。

cloudFiles ={
"cloudFiles.subscriptionId" :"<subscription_Id>",
"cloudFiles.connectionString" :"<connectionString_Storage_account>",
"cloudFiles.format":"csv",
"cloudFiles.tenantId":"<tenantId>",
"cloudFiles.clientId":"<client_ID>",
"cloudFiles.clientSecret":"<Client_Secret>",
"cloudFiles.resourceGroup":"<Resource_group_name>",
"cloudFiles.useNotifications":"yes"
}

有关配置的更多信息 autoloader使用数据砖遵循此 link 。它有关于自动加载器上读取写入流数据的详细说明。

关于azure - Azure 高级存储中的 Databricks 自动加载器文件通知模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74930619/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com