gpt4 book ai didi

apache-spark - 嵌套 json 中的结构化流式传输不同模式

转载 作者:行者123 更新时间:2023-12-02 17:05:44 24 4
gpt4 key购买 nike

您好,我有一个场景,其中传入消息是一个 Json,它的标题是表名,数据部分具有表列数据。现在我想将其写入 parquet 以分隔文件夹,例如 /emp/dept。我可以通过基于 tablname 聚合行在常规流中实现这一点。但是在结构化流媒体中我无法拆分它。我怎样才能在结构化流中实现这一目标。

{"tableName":"employee","data":{"empid":1","empname":"john","dept":"CS"} {"tableName":"employee","data":{"empid":2","empname":"james","dept":"CS"} {"tableName":"dept","data":{"dept":"1","deptname":"CS","desc":"COMPUTER SCIENCE DEPT"}

最佳答案

我通过循环遍历预期表的列表并针对每个然后从数据框中过滤记录并应用特定于表的架构和编码器,然后写入 sink 。所以读取只发生一次,并且每个表都会调用 writeStream 并且它工作正常。感谢大家的帮助

这也会根据表对 parquet 输出文件夹进行动态分区。

关于apache-spark - 嵌套 json 中的结构化流式传输不同模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51826841/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com