- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我设置了 kafka connect s3 接收器,持续时间设置为 1 小时,并且还设置了相当大的刷新计数,比如 10,000。现在如果kafka channel 中消息不多,s3接收器会尝试将它们缓冲在内存中,并等待累积到flush计数,然后将它们一起上传并将偏移量提交给自己的消费者组。
但想想这种情况。如果在 channel 里,我只发送5000条消息。然后就没有s3水槽冲洗了。那么过了很长一段时间,这5000条消息最终会因为保留时间的原因被从kafka中逐出。但这些消息仍然在s3接收器的内存中,而不是在s3中。这是非常危险的,例如,如果我们重新启动 s3 Sink 或运行 s3 Sink 的机器崩溃了。然后我们就丢失了这 5,000 条消息。我们无法从 kafka 中再次找到它们,因为它已被删除。
s3 sink 会发生这种情况吗?或者有一些设置强制它在一段时间后刷新?
最佳答案
如果从 Kafka 到 S3 的流没有恒定的记录流,您可以使用该属性
按计划的时间间隔刷新记录。
请注意,在重新处理的情况下,如果使用此选项,您的下游系统应该能够处理重复项。这是因为,如果连接器计划从 Kafka 重新导出记录,则根据挂钟刷新此类记录可能会导致不同文件中出现重复项。
作为旁注,如果您使用属性:
使用 Wallclock
时间戳提取器 (timestamp.extractor=Wallclock
),您的记录将被刷新,而无需设置 rotate.schedule.interval.ms
.但这意味着您的分区程序依赖于挂钟,因此您应该能够考虑重复记录。
连接器能够通过确定性分区器对恒定的记录流提供一次性交付,并具有各种时间戳提取器,例如依赖于记录的时间戳 (Record
) 或时间戳的提取器。字段时间戳 (RecordField
) 。
分区的配置属性 here
关于amazon-s3 - 强制 Confluence s3 水槽冲洗,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50761999/
我已经从“https://github.com/apache/flume/downloads”下载了水槽..但我无法构建它..我需要先安装节俭才能构建水槽吗?如果是这样,原因是什么..我得到了当我运行
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我有以下 flume 代理配置来从 kafka 源读取消息并将它们写回 HDFS 接收器 tier1.sources = source1 tier 1.channels = channel1 tie
我想获取由 AVRO 反序列化器创建的记录并将其发送到 ElasticSearch。我意识到我必须编写自定义代码来执行此操作。 使用 LITERAL 选项,我得到了 JSON 模式,这是使用 Gene
我是 spark 的新手,我们正在运行 spark on yarn。我可以很好地运行我的测试应用程序。我正在尝试收集 Graphite 中的 Spark 指标。我知道要对 metrics.proper
我正在尝试使用 Flume-ng 将数据写入 Hdfs 作为 exec 源。但它总是以退出代码 127 结束。它还显示类似警告 无法从 VM 获取 maxDirectMemory:NoSuchMeth
我是一名优秀的程序员,十分优秀!