gpt4 book ai didi

azure - 尝试从 Azure Blob 存储复制数据时出现未知错误

转载 作者:行者123 更新时间:2023-12-03 03:07:36 25 4
gpt4 key购买 nike

我有以下 Azure 数据工厂设置:

链接服务:

"name": "AzureStorageLinkedService",
"properties": {
"description": "",
"hubName": "***",
"type": "AzureStorage",
"typeProperties": {
"connectionString": "DefaultEndpointsProtocol=https;AccountName=***;AccountKey=**********;EndpointSuffix=core.windows.net"
}
}

数据集:

输入:

{
"name": "AzureBlobDatasetTemplate",
"properties": {
"published": false,
"type": "AzureBlob",
"linkedServiceName": "AzureStorageLinkedService",
"typeProperties": {
"folderPath": "app-insights/************/PageViews/{Slice}/{Hour}",
"format": {
"type": "JsonFormat"
},
"partitionedBy": [
{
"name": "Slice",
"value": {
"type": "DateTime",
"date": "SliceStart",
"format": "yyyy-MM-dd"
}
},
{
"name": "Hour",
"value": {
"type": "DateTime",
"date": "SliceStart",
"format": "HH"
}
}
]
},
"availability": {
"frequency": "Minute",
"interval": 15
},
"external": true,
"policy": {}
}

}

输出:

{
"name": "AzureTableDatasetTemplate",
"properties": {
"published": false,
"type": "AzureTable",
"linkedServiceName": "AzureStorageLinkedService",
"typeProperties": {
"tableName": "HelloWorld"
},
"availability": {
"frequency": "Minute",
"interval": 15
}
}

}

管道

{
"name": "PipelineTemplate",
"properties": {
"description": "Application Insight",
"activities": [
{
"type": "Copy",
"typeProperties": {
"source": {
"type": "BlobSource"
},
"sink": {
"type": "AzureTableSink",
"writeBatchSize": 0,
"writeBatchTimeout": "00:00:00"
}
},
"inputs": [
{
"name": "AzureBlobDatasetTemplate"
}
],
"outputs": [
{
"name": "AzureTableDatasetTemplate"
}
],
"policy": {
"timeout": "1.00:00:00",
"concurrency": 1,
"retry": 3
},
"scheduler": {
"frequency": "Minute",
"interval": 15
},
"name": "CopyActivityTemplate"
}
],
"start": "2014-05-01T00:00:00Z",
"end": "2018-05-01T00:00:00Z",
"isPaused": false,
"hubName": "datafactorypocjspi_hub",
"pipelineMode": "Scheduled"
}

}

Blob 存储中的数据来自 Application Insights 连续导出。

我的目的是让整个设置像这样工作:

  1. Application Insights 使用连续导出(已完成且正在运行)导出 Blob 存储中的数据
  2. Azure 数据工厂将数据从 Blob 存储移动到 Azure 表存储(在此过程中需要计算分区和行键,我还没有到达该部分,因为我之前陷入了复制过程) )

在当前设置下,我的所有事件运行都陷入“等待:数据集依赖项尚未就绪”状态:

Azure pipeline activity

我能找到的唯一附加信息是事件的状态描述:上游依赖项尚未准备好。

我在这里缺少什么?连接到 blob 存储时似乎出现问题。我已经仔细检查了连接字符串,文件夹路径似乎也按顺序排列:

Storage Explorer

最佳答案

我之前在为大型计划窗口配置时间片时遇到过这个问题...我认为您遇到这个问题是因为您为 4 年窗口设置了 15 分钟 时间片!

数据集:

"availability": {
"frequency": "Minute",
"interval": 15

事件:

"start": "2014-05-01T00:00:00Z",
"end": "2018-05-01T00:00:00Z",

这是 ADF 在部署时必须完成的大量配置工作。结果是您所看到的,它无法开始验证上游数据集,因为它仍在处理所有切片的创建。例如。等待!

这不是一个理想的答案,但我的建议是您将计划窗口减小到更小的值以测试复制过程。一旦工作正常,一次将其延长一个月,以便内部配置过程有机会跟上。

注意;这不仅仅是 15 分钟除以 4 年那么简单。对于每个数据集来说,它也是两倍。输入和输出。

希望这有帮助。

关于azure - 尝试从 Azure Blob 存储复制数据时出现未知错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42977974/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com