gpt4 book ai didi

azure - 哪种Azure存储技术用于天气预报数据

转载 作者:行者123 更新时间:2023-12-03 05:44:06 29 4
gpt4 key购买 nike

我想要一些有关选择正确技术的建议/提示,以便在 Azure 技术上存储一些预测数据。我和我的团队每天都会从各种来源抓取一些天气预报数据,并将其按原样存储在 Azure 文件存储上。文件格式为“grib2”,这是天气预报数据的标准格式。我们能够使用在 Azure VM 上运行的 python 脚本从这些“grib2”文件中提取数据。

我们现在有几个文件,代表着数百 GB 的数据要存储,我正在努力寻找 Azure 技术中的哪个数据存储在实用性和成本方面最适合我们的需求。
我们首先开始使用“Azure Table Storage”,因为它是廉价的解决方案, 但我在许多帖子中读到,它有点旧,不太适合我们的解决方案,因为它不允许每个查询超过 1,000 个实体,并且没有数据聚合。

我考虑过使用 Azure SQL 数据库,但它似乎很快就会变得非常昂贵。
我还考虑过 Azure Data Lake Storage Gen2(和 HDinsight)技术,但对这些 Blob 存储不太放心,而且我真的不能说它是否能满足我在实用性方面的需求以及是否“易于查询” 。

现在我们只是计划实现这一目标:

1) Extract data from grib2 files thanks to a python script running on an Azure VM
2) Insert the transformed data into [Azure storage]
3) Query the [Azure storage] from Azure Machine Learning Service or a local R script (for example)
4) Insert the computed data into [Azure storage]

由[Azure 存储]技术来确定。

任何帮助或建议将不胜感激,谢谢。

最佳答案

我会在这里看到一些事情:

  1. 要以原始格式存储下载的文件(在您的情况下为 grib2),请将它们放在良好的 Azure Blob 存储上。廉价的存储空间完全满足您的需求。
  2. 使用Azure Databricks to load the data from the storage account并将其解压到内存中。 (Python 或 Scala)
  3. 将数据加载到内存中(仍在 Databricks 中)以运行 ML 推理。如果您确实愿意,也可以使用 SparkR。
  4. 将计算出的文件存储在服务层中。这实际上取决于您以后想用它做什么。通常,Azure SQL 数据库是一个显而易见的选择。有一个native Spark connector它可以有效地将数据从 Databricks 写入 SQL DB。

除了使用 Databricks 作为推理环境之外,它也是 ML 训练的不错选择(例如利用 Azure ML 服务)。

关于azure - 哪种Azure存储技术用于天气预报数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56187227/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com