gpt4 book ai didi

python - Azure Batch 服务与用于 Python 作业的 Azure Databricks

转载 作者:行者123 更新时间:2023-12-03 04:56:59 25 4
gpt4 key购买 nike

假设我有一个数据分析问题(例如 Iris 数据集等 csv 数据),我想使用 Pandas 和 Python 进行一些数据操作和处理。我的 Python 脚本已经编写完毕,每天当我收到 csv 文件时,我希望使用 Azure 云中的 python 脚本处理这些数据,并将结果写入 Azure Blob 存储。

现在我遇到了这些链接/方法来解决这个问题:

是否有人对上述两种运行 python 脚本的方法有一定的经验,也许有建议以及需要考虑的事项(优点/缺点)?

此问题的目标:选择哪种方法或您更喜欢哪种方法:a) Azure Batch Service 或 b) Azure Databricks 以及为什么?

选择合适的服务时需要考虑的事项:

  • 价格
  • 设置解决方案的便利性
  • 监控可能性
  • 随着时间的推移,数据增长或脚本逻辑变得更加复杂,扩展的可能性
  • 易于与其他服务(例如存储)集成
  • 库和框架方面的灵 active (例如,稍后它可能会成为一个数据科学问题,我想在我的分析管道中添加一些 h2o 机器学习模型)
  • (也许更多我没有考虑到......?)

最佳答案

很难回答你的问题,因为没有描述你的文件和转换的数量和复杂性以及财务限制/执行时间(例如,你有多少行和列?),我建议你采取数据架构技术概览:

https://learn.microsoft.com/en-us/azure/architecture/data-guide/technology-choices/batch-processing

这将取决于关键选择标准和能力矩阵中所述的几个因素。

就我个人而言,我会使用 Azure 函数来处理 CSV 并将其上传到 Blob 存储以进行简单的 CSV 处理,否则我会选择数据工厂。

对于 Azure 函数解决方案,您可以在 Python 脚本中划分函数,并将它们作为单独的编排函数或设计模式(链接或扇出/输入)运行:主要优点是模块化和成本以及无服务器优势:

enter image description here

https://learn.microsoft.com/en-us/azure/azure-functions/durable/quickstart-python-vscode

https://learn.microsoft.com/en-us/azure/azure-functions/durable/durable-functions-overview?tabs=csharp

关于python - Azure Batch 服务与用于 Python 作业的 Azure Databricks,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66371661/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com