python - 使用按需 HOT Insight 集群从 Azure 数据工厂 V2 访问数据湖-6ren

python - 使用按需 HOT Insight 集群从 Azure 数据工厂 V2 访问数据湖

转载作者：太空宇宙更新时间：2023-11-03 14:17:19

我正在尝试使用 Azure 数据工厂从按需 HD Insight 集群执行 Spark 作业。

文档清楚地表明，ADF(v2) 不支持按需 HD Insight 集群的数据湖链接服务，并且必须将数据从复制事件复制到 Blob 上，然后执行作业。但如果数据湖上有十亿个文件，这种解决方法似乎会耗费巨大的资源。是否有任何有效的方法可以从执行 Spark 作业的 python 脚本或任何其他方式直接访问文件来访问 datalake 文件。

P.S 是否有可能从 v1 做类似的事情，如果是的话怎么做？ “使用 Azure 数据工厂在 HDInsight 中创建按需 Hadoop 集群”描述了访问 Blob 存储的按需 Hadoop 集群，但我想要访问数据湖的按需 Spark 集群。

提前致谢

最佳答案

目前，我们在 ADF v2 中不支持使用 HDI Spark 集群的 ADLS 数据存储。我们计划在未来几个月内添加这一内容。在那之前，您将必须继续使用您在上面的帖子中提到的解决方法。很抱歉给您带来不便。

关于python - 使用按需 HOT Insight 集群从 Azure 数据工厂 V2 访问数据湖，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48165947/