gpt4 book ai didi

apache-spark - 如何在流媒体用例中更新大型广播变量?

转载 作者:行者123 更新时间:2023-12-04 03:56:48 24 4
gpt4 key购买 nike

我有一个用例,我有一个流式作业运行从 kafka 队列获取输入数据。我有 100 万行的引用数据,每小时更新一次。我在驱动程序中加载引用数据,然后将其广播给工作人员。我想更新此广播变量(在驱动程序中)并将其重新发送给工作人员。

在不引入 hbase/redis/cassandra 等的情况下,在 spark 中执行此操作的最佳方法是什么?

这有多可靠?

如果需要更多信息,请告诉我。先感谢您。 =)

最佳答案

类似问题的答案稍后在这里给出:How can I update a broadcast variable in spark streaming?

简而言之,您需要:“取消持久化”广播变量,更新并重新广播它。

附注。正式地,这个问题不是重复的,因为它之前发布过。

关于apache-spark - 如何在流媒体用例中更新大型广播变量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32729311/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com