java - Spark 还是传统的守护进程来处理流更新？-6ren

java - Spark 还是传统的守护进程来处理流更新？

转载作者：行者123 更新时间：2023-12-02 02:27:19

25

4

这是一个征求有关实现选项想法的问题。

我们正在迁移当前使用 Spark Streaming 的系统。在设计新系统时，我们正在讨论两种实现方案:

继续使用 Spark Streaming
改用常规守护进程

我们的用例:我们有一个数据存储，它不断生成我们需要使用的更新。我们数据的规模和频率只会变得更大、更快。

我可以访问我们当前的 Spark 作业 Web UI，如果需要任何指标/数据来支持任一选项，请告诉我。

谢谢!

最佳答案

感谢您的评论。

如果您只需要捕获数据并将其移动到其他地方，基于守护程序的解决方案可能会起作用。尽管如此，您的数据源必须允许轻松添加新的消费者，就像 Apache Kafka 对消费者组所做的那样。在这种情况下，您可以简单地在任何您想要的地方部署一个新容器(Kubernetes、Mesos、ECS...)，并让您的源将工作负载分配给新的使用者。看起来不错。

但是，如果您想要制作一些复杂的东西，例如有状态聚合、分组操作，则很难从头开始重新实现所有内容并在事后对其进行维护。在我看来，即使你现在知道你不需要它，也没有什么可以保证它会永远如此。除此之外，您还需要使自定义使用者适应每个新版本，而对于开源解决方案，大部分时间都由社区处理。

如果您关心扩展，Apache Spark 将根据底层数据存储分区分布进行相应扩展。因此，如果您在 Kafka 主题中添加新分区，Apache Spark 应该相应地进行扩展 - 我同意自动执行此操作并不是一件容易的事，但您仍然只关注 1 个问题(自动扩展)和上一个选项 auto - 扩展是需要实现的众多要点之一。

此外，您说您的团队拥有 Apache Spark 专业知识，因此保留它是有意义的。

希望它对您的决策过程有所帮助。

您能否稍后分享您所做的决定并简要解释一下？

关于java - Spark 还是传统的守护进程来处理流更新？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57246115/

25

4

0

文章推荐： r - 强制 rstudio 使用浏览器而不是查看器

文章推荐： perforce - 强制 Perforce 接受有效的工作区 View

文章推荐： .net - Silverlight 或 ClientBin 问题？

文章推荐： Delphi DataSnap函数返回TStream和内存泄漏

守护 ThreadGroup
一点睛线程可以设置为守护线程，ThreadGroup 也可以设置为守护 ThreadGroup，但是若将一个 ThreadGroup 设置为 deamon，也并不会影响线程的 daemon 属性，
python - 守护 python 脚本需要什么？
我有一个 python 脚本需要在启动时作为守护进程运行。进程从 tty(和 pdb)分离，但代码不运行。我已经将它缩小到一个最小的例子 import daemon from time import
ReactJS:setState 什么时候应该由 isMounted 守护？
reactjs isMounted API 的文档提到: You can use this method to guard asynchronous calls to setState() or fo
python - 守护 python 的 BaseHTTPServer
我正在开发一个需要嵌入 HTTP 服务器的守护进程。我正在尝试使用 BaseHTTPServer 来完成它，当我在前台运行它时，它工作正常，但是当我尝试将守护进程 fork 到后台时，它停止工作。我的
java - 使用 JSVC 守护 java 应用程序
我正在尝试使用 Apache Commons Daemon 使用 Daemon 接口(interface)来守护我的应用程序。 Java 应用程序本身不执行任何操作，只是写入 stout。我编译了j
python-3.x - python - 守护 bottlepy 脚本
我正在使用 Bootle Python Web Framework 在 Ubuntu 上开发网络应用程序。是否有任何有效的方法来守护启动默认 bottlepy 网络服务器的脚本？谢谢。 UPD:现在
ruby-on-rails - 如何使用 bluepill 守护 Rails 脚本
我一直使用 bluepill成功地守护简单的 Ruby 脚本。然而这一次，我有一个脚本，它也在加载 Rails 环境，因此我可以访问 Rails 应用程序及其各自模型的数据库连接。我使用的 bluep
python - 使用 python-daemon 守护 python 脚本-套接字问题
我试图守护一些代码，但我遇到了一些麻烦。如果我用 tklogger() 调用代码，它运行得很好。但是，如果我在守护程序上下文中调用它，我会得到以下跟踪信息: Traceback (most rece
python-3.x - 在 centos 7 上使用 systemd 守护 celery
我打算使用 systemd 将 celery 4.3.0 作为守护进程运行，但它给了我这个错误: 它会启动 worker 但会很快停止它们。但是，我可以通过键入以下命令手动运行工作人员: celery

首页

博学

6Ren·AI

商城

java - Spark 还是传统的守护进程来处理流更新？