hadoop - Spark 流 : Issues when processing time

hadoop - Spark 流 : Issues when processing time > batch time

转载作者：行者123 更新时间：2023-12-04 12:04:02

29

4

我正在使用 DirectAPI 在 yarn 上运行 Spark 流 (1.6.1) 以从具有 50 个分区的 Kafka 主题读取事件并在 HDFS 上写入。我的批处理间隔为 60 秒。我收到了大约 50 万条消息，这些消息在 60 秒内得到处理。

突然，spark 开始接收 15-2000 万条消息，处理时间大约为 5-6 分钟，批处理间隔为 60 秒。我已经配置了 "spark.streaming.concurrentJobs=4" 。

因此，当批处理需要很长时间来处理时，spark 启动并发 4 个事件任务来处理积压批处理，但仍然在一段时间内批处理积压增加，因为批处理间隔对于这样的数据量来说太小了。

我对此几乎没有怀疑。

当我开始接收 15-2000 万条消息时，处理这些消息的时间约为 5-6 分钟，批处理间隔为 60 秒。当我检查我的 HDFS 目录时，我看到每 60 秒创建的文件有 50 个部分文件，我有点困惑，我的批处理在 5-6 分钟内得到处理，然后它如何每 1 分钟在 HDFS 上写入文件 & 'saveAsTextFile' Action 每批只调用一次。来自所有文件 50 个部分文件的总记录约为 330 万。

为了处理 15-2000 万条消息，我将批处理间隔配置为 8-10 分钟，现在 spark 开始消耗来自 Kafka 的大约 35-4000 万条消息，其处理时间再次开始超过批处理间隔。

我已经配置了 'spark.streaming.kafka.maxRatePerPartition=50' & 'spark.streaming.backpressure.enabled=true' 。

最佳答案

我认为可能让您感到困惑的一件事是工作长度与频率之间的关系。
根据您的描述，在可用资源的情况下，最终这项工作似乎需要大约 5 分钟才能完成。但是，您的批处理频率为 1 分钟。
因此，每 1 分钟您就会启动一些需要 5 分钟才能完成的批次。
结果，最后您会期望看到 HDFS 在最初的几分钟内什么也没有收到，然后您每隔 1 分钟就会收到一些信息(但是从数据输入开始有 5 分钟的“延迟”)。

关于hadoop - Spark 流 : Issues when processing time > batch time，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41184154/

29

4

0

文章推荐： json - 将 CellSet 对象转换为 JSON 结果

文章推荐： scala - Flink : How to convert the deprecated fold to aggregrate?

文章推荐： javascript - JSON.parse 中的意外标记

QtCreator : Issues not displayed in Issue panel any more
我不知道我做了什么来破坏我的 QtCreator，但是“突然”我所有的编译器问题(警告/错误)不再显示在问题面板中，而是只显示在“编译输出”面板中(我在那里不能使用它们通过单击跳转到错误代码)。在“
javascript - Kinectisj : Issue where mouse trail remains(Layer issue)
我正在制作游戏作为自学。我的目标是在鼠标指针后面有一条轨迹。(这有效)但是，当我在 chrome 上打开并运行它时。在达到一定的高度和宽度后，轨迹保留在 Canvas 上而不是被擦掉。谁能帮我解决这
HTML/CSS Coding out text issues, Navbar issues(文本编码问题、导航栏问题)
我希望通过在我的HTML文件中适当地格式化我的网站上的文本来增强它的外观。具体地说，我希望确保我的HTML文件中的代码在网站上显示得很好。此外，我正在寻求帮助实现我的网站导航栏。，我希望和其他内容显示
HTML/CSS Coding out text issues, Navbar issues(文本编码问题、导航栏问题)
我希望通过在我的HTML文件中适当地格式化我的网站上的文本来增强它的外观。具体地说，我希望确保我的HTML文件中的代码在网站上显示得很好。此外，我正在寻求帮助实现我的网站导航栏。，我希望和其他内容显示
HTML/CSS Coding out text issues, Navbar issues(文本编码问题、导航栏问题)
我希望通过在我的HTML文件中适当地格式化我的网站上的文本来增强它的外观。具体地说，我希望确保我的HTML文件中的代码在网站上显示得很好。此外，我正在寻求帮助实现我的网站导航栏。，我希望和其他内容显示
html - css - border-width, border background and background issue in safari 5.x issue
我一直在尝试将背景图像添加到 html 文档中元素的边框: 你可以在这里看到:HTML: Something CSS: a { border-width:10px; border-co
c# - Protocol Buffer ，让 C# 与 C++ 对话 : type issues and schema issues
我即将开始一个连接两个程序的项目，一个用c#，一个用c++。我已经有一个可以工作的 c# 程序，它能够与自身的其他版本对话。在开始使用c++版本之前，我想到了一些问题: 1) 我正在使用 protob
Java线程计数器 "issue"？
我正在尝试线程优先级的影响，当 run 方法中的 println 保留在注释中时，两个线程同时结束，我不理解这种行为，你能解释一下吗？谢谢。主类 public class Main { public
jQuery :not() issue
jQuery 1.4: $('#menu li:last:not(.ignore)').addClass('last'); HTML: item 1 ite
issue-tracking - 如何从螳螂中删除个人资料字段
当我创建或查看问题时，我想从Mantis问题跟踪系统中删除选择配置文件及其所有随附字段，因为这些问题与我要创建的任何问题都不相关。其中包括配置文件部分随附的“平台”，“操作系统”和“操作系统版本”字
github - 在另一个分支上关闭GitHub Issue
我不在Master分支上工作。我正在开发另一种newFeature，该功能也发布在github上。我知道在处理Master分支时如何解决问题：Closes #XXX。但是，这仅在我在Master分
iphone - UICollectionViewCell绘制矩形: issues
我需要在一些UICollectionViewCell中画一个圆圈。具有不同颜色边框和背景颜色的圆圈。我的代码。 UICollectionViewController - (UICollectionVi
github - 如何将Trac导出到Github Issues
我们将Trac用于我正在从事的开源项目。我想将所有公开票导出到Github的Issues。我已经找到了一些可能的小型脚本，但是我想知道是否有人这样做并提出了建议。理想情况下，它将trac的描述语法转
iPad : UITableView issue
我对 iOS 编程还比较陌生，但在其他语言(主要是 C# 和 Java)方面拥有丰富的编程经验。我正在尝试为 iPad 设备的某些产品制作一个类似图片库的东西，其中包含指定的类别。用户界面非常简单，
中间人和 I18n : having some issues
我已经在中间人中激活了 I18n，如下所示: activate :i18n, mount_at_root: :de 现在我想自动从 / 重定向到 /de。这可能吗？另外，我想知道为什么中间人使用 p
java - 如何用LinkedHashMap制作一个ArrayList来解决 "issue"？
我已经成功编写了一个程序，可以从 Excel 文件中读取数据并将它们存储在 mysql 的表中。我的程序读取每个文件的第一行，创建表的字段，并将其余数据存储为每列中的值。正是因为这种情况以编程方式发生
JavaScript : promise issue
这是我的代码。 function m1() { return new Promise(function(resolve, reject) { var files = $('#aws-upl
C++ : ofstream issues
谁能告诉我这是怎么回事？ #include #include #include #include #include class writeManager { std::vector
安卓工作室 : Dependency issues
compile 'com.github.RogaLabs:social-login:1.2.1' compile 'com.github.mukeshsolanki:social-login-help
MySQL加载数据查询: Issue with Backslash (\)
我有一个巨大的 csv 文件，其中包含 149 列和 25K+ 行，可以在 MySQL 中上传该文件> 我正在使用MySQL LOAD DATA 查询表我的查询是: LOAD DATA local

首页

博学

6Ren·AI

商城

hadoop - Spark 流 : Issues when processing time > batch time