gpt4 book ai didi

azure - Azure 上的 Hadoop,我可以使用不同的 Blob 存储容器进行 I/O 吗?

转载 作者:可可西里 更新时间:2023-11-01 15:55:02 24 4
gpt4 key购买 nike

我目前正在开展一个在 Azure 上创建大数据架构的项目。为了了解 Azure 的工作原理,我创建了数据工厂和 Blob 存储,并在按需 HDInsight 系统上为字数统计 Hadoop 进程设置了管道。

这是管道的 JSON 文件:

{
"name": "MRSamplePipeline5",
"properties": {
"description": "Sample Pipeline to Run the Word Count Program",
"activities": [
{
"type": "HDInsightMapReduce",
"typeProperties": {
"className": "wordcount",
"jarFilePath": "executables/hadoop-example.jar",
"jarLinkedService": "AzureStorageLinkedService",
"arguments": [
"/davinci.txt",
"/WordCountOutput1"
]
},
"outputs": [
{
"name": "MROutput4"
}
],
"policy": {
"timeout": "01:00:00",
"concurrency": 1,
"retry": 3
},
"scheduler": {
"frequency": "Minute",
"interval": 15
},
"name": "MRActivity",
"linkedServiceName": "HDInsightOnDemandLinkedService"
}
],
"start": "2017-07-24T00:00:00Z",
"end": "2017-07-24T00:00:00Z",
"isPaused": false,
"hubName": "testazuredatafact_hub",
"pipelineMode": "OneTime",
"expirationTime": "3.00:00:00"
}
}

它确实有效,即使输出是一个名为“WordCountOutput1/part-r-00000”的文件。

我的问题是:如何将输入文件 (davinci.txt) 和输出文件 (Output1) 定义在 Blob 存储的不同容器(例如“exampledata”)中?

最佳答案

Hadoop 文件路径可以用完整的 URI 语法指定,包括方案和权限,以指向不同类型的文件系统(例如 HDFS、Azure 和 S3),以及在特定情况下指向不同的 Azure 存储容器。 Azure 存储访问的相关方案是“wasb”。权限包含容器和账户。例如,请考虑以下 hadoop fs -ls 命令。

# WASB backed by container "test" in Azure Storage account "cnauroth"
hadoop fs -ls wasb://<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="1e6a7b6d6a5e7d707f6b6c716a76307c72717c307d716c7b306977707a71696d30707b6a" rel="noreferrer noopener nofollow">[email protected]</a>/users/cnauroth

# WASB backed by container "qa" in Azure Storage account "cnauroth"
hadoop fs -ls wasb://<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="3f4e5e7f5c515e4a4d504b57115d53505d115c504d5a114856515b50484c11515a4b" rel="noreferrer noopener nofollow">[email protected]</a>/users/cnauroth

# WASB backed by container "production" in Azure Storage account "cnauroth-live"
hadoop fs -ls wasb://<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="f7878598938294839e9899b7949996828598839fda9b9e8192d9959b9895d994988592d9809e9993988084d9999283" rel="noreferrer noopener nofollow">[email protected]</a>/users/cnauroth

从同一客户端主机执行的每个命令都会列出不同的 Azure 存储帐户/容器。

在向作业提交传递参数时,您可以使用相同的 URI 语法。

关于azure - Azure 上的 Hadoop,我可以使用不同的 Blob 存储容器进行 I/O 吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45279793/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com