- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我编写了一个与 updateStateByKey 一起使用的简单函数,以查看问题是否是因为我的 updateFunc。我认为这一定是由于其他原因。我在 --master local[4] 上运行它。
val updateFunc = (values: Seq[Int], state: Option[Int]) => {
Some(1)
}
val state = test.updateStateByKey[Int](updateFunc)
一段时间后,有警告,任务大小不断增加。
WARN TaskSetManager:阶段 x 包含一个非常大的任务 (129 KB)。建议的最大任务大小为 100 KB。
WARN TaskSetManager:阶段 x 包含一个非常大的任务 (131 KB)。建议的最大任务大小为 100 KB。
最佳答案
您的流中有越来越多的不同键,每个键都会将 1
的新副本添加到您的状态。
当前 updateStateByKey 在每个批处理间隔中扫描每个键,即使该键没有数据。这会导致 updateStateByKey 的批处理时间随着状态中键的数量而增加,即使数据速率保持固定。
关于scala - 为什么使用 updateStateByKey 时任务大小一直在增长?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26694235/
想知道为什么 StatefulNetworkWordCount.scala 示例调用臭名昭著的 updateStateByKey() 函数,该函数应该只将函数作为参数,而不是: val stateDs
我编写了一个与 updateStateByKey 一起使用的简单函数,以查看问题是否是因为我的 updateFunc。我认为这一定是由于其他原因。我在 --master local[4] 上运行它。
我正在运行一个 24X7 的 Spark 流并使用 updateStateByKey 函数来保存计算的历史数据,就像 NetworkWordCount Example 的情况一样.. 我试图流式传输一
如何通过 INPUT PostgreSQL 表的更改触发的 Spark 结构化流计算来更新 OUTPUT TABLE 的状态? 作为现实生活中的场景,USERS 表已被user_id = 0002 更
我正在使用 updateStateByKey()在我的 Spark Streaming 应用程序中维护状态的操作。输入数据来自 Kafka 主题。 我想了解 DStreams 是如何分区的? 分区如何
我正在尝试使用 Spark Streaming 编写一个简单的应用程序,以从 Kafka 读取数据,并持续计算从主题读取单词的次数。我在调用非常重要的 updateStateByKey 方法时遇到问题
我正在尝试合并两个流,其中一个应该是有状态的(比如不经常更新的静态数据): SparkConf conf = new SparkConf().setAppName("Test Application"
我正在尝试通过从 Kafka 读取的(假)apache Web 服务器日志运行有状态 Spark Streaming 计算。目标是“ session 化”类似于 this blog post 的网络流
我正在 24/7 全天候运行 Spark 流并使用 updateStateByKey是否可以 24/7 全天候运行 Spark Streaming?如果是,updateStateByKey 不会变大,
我在 Scala 中有这个通用方法 def updateStateByKey[S](updateFunc: JFunction2[JList[V], Optional[S], Optional[S]]
当我遇到 updateStateByKey() 函数时,我刚刚开始寻找使用 Spark Streaming 进行有状态计算的解决方案。 我试图解决的问题: 10,000 个传感器每分钟产生一个二进制值
我在 Spark Streaming 应用程序中使用 updateStateByKey 函数来持久化和更新每个键的状态。问题是我想知道 “ key ”在更新函数里面。 input.updateStat
我是一名优秀的程序员,十分优秀!