gpt4 book ai didi

azure - 使用 Spark 和 azure 进行批处理

转载 作者:行者123 更新时间:2023-12-02 07:08:49 25 4
gpt4 key购买 nike

我在一家能源供应公司工作。目前,我们每天以平面文件的形式生成 1 GB 数据。我们决定使用 azure 数据湖存储来存储我们的数据,我们希望每天在其中进行批处理。我的问题是将平面文件传输到 azure 数据湖存储的最佳方法是什么?在将数据推送到 azure 后,我想知道使用 HDInsight Spark 处理数据是否是个好主意?像 Dataframe API 或 SparkSQL 一样,最后使用 azure 进行可视化?

最佳答案

对于从本地文件系统进行的日常加载,我建议使用 Azure 数据工厂版本 2。您必须在本地安装集成运行时(为了实现高可用性,需要安装多个集成运行时)。您必须考虑几个安全主题(本地防火墙、网络连接等)。可以在 here 找到详细文档。 。还有一些不错的Tutorials可用的。借助 Azure 数据工厂,您可以使用 Get-Metadata-Activity 触发上传到 Azure。并使用 e。 G。用于进一步 Spark 处理的 Azure Databricks Notebook 事件。

关于azure - 使用 Spark 和 azure 进行批处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50150368/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com