gpt4 book ai didi

cloudera-quickstart-vm - StreamSets 架构是什么?

转载 作者:行者123 更新时间:2023-12-01 13:27:39 25 4
gpt4 key购买 nike

即使看了教程,我也不是很清楚架构。我们如何在分布式环境中扩展流集?比方说,我们的输入数据速度从源开始增加,那么如何确保 SDC 不会出现性能问题?将运行多少守护进程?是 Master worker 架构还是点对点架构?

如果在多台机器上运行多个守护进程(例如 YARN 中的一个 sdc 和一个 NodeManager),那么它将如何显示数据的集中 View ,即总记录数等?

另外请让我知道数据流性能管理器的架构。该产品中有哪些守护进程?

最佳答案

StreamSets 数据收集器 (SDC) 通过对输入数据进行分区进行扩展。在某些情况下,这可以自动完成,例如 Cluster Batch mode在 Hadoop/MapR 集群上将 SDC 作为 MapReduce 作业运行以读取 Hadoop FS/MapR FS 数据,同时 Cluster Streaming mode利用 Kafka 分区并将 SDC 作为 Spark Streaming 应用程序执行,以运行与 Kafka 分区一样多的管道实例。

在其他情况下,StreamSet 可以通过多线程进行扩展 - 例如,HTTP ServerJDBC Multitable Consumer origins 在单独的线程中运行多个管道实例。

在所有情况下,Dataflow Performance Manager (DPM) 可以为您提供数据的集中 View ,包括总记录数。

关于cloudera-quickstart-vm - StreamSets 架构是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47699877/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com