gpt4 book ai didi

azure - 非分区流分析作业输出

转载 作者:行者123 更新时间:2023-12-03 02:19:26 26 4
gpt4 key购买 nike

在 Azure 中,我有一个分区计数为 5 的事件中心和一个流分析作业,该作业以 json 格式将数据从中心保存到 blob 存储。现在创建了 5 个文件来存储传入数据。

是否可以在不更改集线器分区的情况下配置流分析作业,以便将所有数据保存到单个文件中?

最佳答案

作为引用,描述了如何分割输出文件的考虑因素 here .

就您而言,满足的条件是:

If the query is fully partitioned, and a new file is created for each output partition

这就是这里的技巧,如果您的查询是从事件中心(已分区)到存储帐户(通过拆分文件匹配传入分区)的直通(没有围绕分区进行洗牌),那么您的作业始终是完全分区的。

如果您不关心性能,您可以做的就是打破分区对齐。为此,您可以重新分区 your input或您的查询(通过 snapshot aggregation )。

但在我看来,您应该考虑使用其他工具(ADF、Power BI Dataflow)来处理这些下游数据。您应该看到这些文件是登陆文件,针对查询吞吐量进行了优化。如果您从作业中删除分区对齐,则会严重限制其扩展和吸收传入流量峰值的能力。

关于azure - 非分区流分析作业输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69648952/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com