gpt4 book ai didi

azure - azure 中的批处理

转载 作者:行者123 更新时间:2023-12-03 00:09:54 28 4
gpt4 key购买 nike

我们计划每天进行批处理。我们每天生成 1 GB 的 CSV 文件,并手动将它们放入 Azure Data Lake Store 中。我已阅读有关批处理的 Microsoft Azure 文档,并决定使用 Spark 进行批处理。我的问题是,当我们使用 RDD/DF 传输数据后,下一步是什么?我们如何可视化数据?由于这个过程应该每天运行,一旦使用 Spark 完成数据转换,我们是否需要将数据推送到任何类型的数据存储(例如 hive hdfs 或 cosmos),然后才能将其可视化?

最佳答案

有多个选项可以在 Azure 上执行此操作。这实际上取决于您的要求(例如用户数量、所需的可视化等)。这样做的例子:

  • 在 Azure Databricks 上运行 Spark,您可以使用 Notebook 功能来可视化数据
  • 将 HDInsight 与 Jupyter 或 Zeppelin 笔记本结合使用
  • 在 Azure Databricks 上定义 Spark 表并使用 Power BI 对其进行可视化
  • 使用 Azure 数据工厂 V2 将数据加载到 Azure SQL DB 或 Azure SQL 数据仓库,并使用 Power BI 进行可视化。
  • 对于时间序列数据,您可以通过 Spark 将数据推送到 Azure EventHub(请参阅下面的带有 Eventhubs 接收器的示例笔记本 documentation )并通过 Azure 时间序列见解使用它。如果您有 EventData-Stream,这也可以在将来取代您的面向批处理的架构。 Azure 时序见解将使用 Parquet 文件作为长期存储(请参阅以下内容 link )。对于 Spark 还可以查看 Time Series Package这为 Spark 添加了一些时间序列功能。

关于azure - azure 中的批处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50185616/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com