gpt4 book ai didi

azure - 如何从多线程将流数据写入Azure数据湖?

转载 作者:行者123 更新时间:2023-12-02 08:05:52 25 4
gpt4 key购买 nike

我正在使用flink程序将从kafka获得的流数据写入Azure Data Lake。当我在获取 ADLOutputStream 以及写入和关闭时使用同步时,它工作正常,但性能非常差,因为只有一个线程正在写入数据湖。当我在没有同步的情况下使用多个线程时,它会抛出 http 400非法参数异常。有没有什么方法可以让多线程写入Azure数据湖中的文件?

最佳答案

对你的设计再考虑一下。

一种方法是将多个文件写入数据湖 - 每个线程一个文件。进入 Data Lake 后,您可以使用 USQL 或 PolyBase 查询一组文件,就像它们是一个数据源一样。或者,您可以编排一个 USQL 作业,以便在文件进入湖后将其合并。这将是本地处理并且性能良好。

关于azure - 如何从多线程将流数据写入Azure数据湖?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43873523/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com