gpt4 book ai didi

streaming - 使用 Kafka 对多个数据源进行实时流式传输

转载 作者:行者123 更新时间:2023-12-04 17:53:05 24 4
gpt4 key购买 nike

我们计划用apache kafka搭建一个实时监控系统。总体思路是将多个数据源的数据推送到kafka,并进行数据质量检查。我对这个架构没有什么疑问

  1. 从多个来源(主要包括 java 应用程序、oracle 数据库、rest api、日志文件)将数据流式传输到 apache kafka 的最佳方法是什么?请注意,每个客户端部署都包括每个此类数据源。因此,将数据推送到 kafka 的数据源数量将等于客户数量 * x,其中 x 是我列出的数据源类型。理想情况下,推式方法最适合而不是拉式方法。在拉动方法中,目标系统必须使用各种源系统的凭据进行配置,这是不切实际的
  2. 我们如何处理失败?
  3. 我们如何对传入的消息执行数据质量检查?例如如果某条消息不具备所有必需的属性,则该消息可能会被丢弃,并会发出警报以供维护团队检查。

请让我知道您的专家意见。谢谢!

最佳答案

我认为这里最好的方法是使用 Kafka 连接:link但这是一种拉动方法:Kafka Connect 源是基于拉式的,原因有几个。首先,虽然连接器通常应该连续运行,但使它们基于拉动意味着连接器/Kafka Connect 决定何时实际拉取数据,这允许在不丢失数据的情况下暂停连接器,连接器移动时短暂的不可用等。其次,在分布式模式下,拉取数据的任务可能需要在工作人员之间重新平衡,这意味着他们不会有一致的位置或地址。在独立模式下,您可以保证使用固定的网络端点(并指向其他服务),但这在分布式模式下不起作用,在分布式模式下,任务可以在工作人员之间移动。 Ewen

关于streaming - 使用 Kafka 对多个数据源进行实时流式传输,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42856209/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com