hadoop - Camus 的预期提交/回滚行为是什么？-6ren

hadoop - Camus 的预期提交/回滚行为是什么？

转载作者：可可西里更新时间：2023-11-01 16:01:44

我们已经运行 Camus 大约一年，成功地从 Kafka(版本 0.82)中提取 avro 有效载荷，并在 HDFS 中存储为 .avro 文件，仅使用几个 Kafka 主题。最近，我们公司的一个新团队在我们的预生产环境中注册了大约 60 个新主题，并开始向这些主题发送数据。该团队在将数据路由到 kafka 主题时犯了一些错误，导致 Camus 将这些主题的有效负载反序列化为 avro 时出错。Camus 作业因超出“其他失败”错误阈值而失败。失败后在 Camus 中产生的行为令人惊讶，我想与其他开发人员核实一下，看看我们观察到的行为是否符合预期，或者我们的实现是否存在一些问题。

当 Camus 作业因超过“失败的其他”阈值而失败时，我们注意到了这种行为:1. 所有 mapper 任务都成功，因此 TaskAttempt 被允许提交 - 这意味着 Camus 写入的所有数据都被复制到最终的 HDFS 位置。2. CamusJob 在计算 % 错误率时抛出异常(这是在映射器提交之后)，导致作业失败3. 因为工作失败(我认为)，Kafka offsets 没有提前

我们遇到此行为的问题是我们的 Camus 作业设置为每 5 分钟运行一次。因此，我们每隔 5 分钟就会看到数据被提交到 HDFS，作业失败，并且 Kafka 偏移量没有更新 - 这意味着我们写入了重复的数据，直到我们注意到我们的磁盘已满。

我编写了一个确认结果的集成测试 - 它向一个主题提交了 10 条良好记录，并向同一主题提交了 10 条使用意外模式的记录，运行 Camus 作业仅将该主题列入白名单，我们可以看到10 条记录被写入 HDFS 并且 Kafka 偏移量没有提前。下面是该测试的日志片段，以及我们在运行作业时使用的属性。

感谢任何帮助 - 我不确定这是否是 Camus 的预期行为，或者我们的实现是否有问题，以及防止这种行为(重复数据)的最佳方法是什么。

谢谢~马特

用于测试的 CamusJob 属性:

etl.destination.path=/user/camus/kafka/data
etl.execution.base.path=/user/camus/kafka/workspace
etl.execution.history.path=/user/camus/kafka/history
dfs.default.classpath.dir=/user/camus/kafka/libs

etl.record.writer.provider.class=com.linkedin.camus.etl.kafka.common.AvroRecordWriterProvider
camus.message.decoder.class=com.linkedin.camus.etl.kafka.coders.KafkaAvroMessageDecoder

camus.message.timestamp.format=yyyy-MM-dd HH:mm:ss Z
mapreduce.output.fileoutputformat.compress=false

mapred.map.tasks=15
kafka.max.pull.hrs=1
kafka.max.historical.days=3

kafka.whitelist.topics=advertising.edmunds.admax
log4j.configuration=true

kafka.client.name=camus
kafka.brokers=<kafka brokers>
max.decoder.exceptions.to.print=5
post.tracking.counts.to.kafka=true
monitoring.event.class=class.that.generates.record.to.submit.counts.to.kafka
kafka.message.coder.schema.registry.class=com.linkedin.camus.schemaregistry.AvroRestSchemaRegistry
etl.schema.registry.url=<schema repo url>
etl.run.tracking.post=false
kafka.monitor.time.granularity=10

etl.daily=daily
etl.ignore.schema.errors=false

etl.output.codec=deflate
etl.deflate.level=6
etl.default.timezone=America/Los_Angeles
mapred.output.compress=false
mapred.map.max.attempts=2

测试的日志片段，显示映射器成功后的提交行为以及由于超过“其他”阈值而导致的后续作业失败:

LocalJobRunner] - advertising.edmunds.admax:2:6; advertising.edmunds.admax:3:7 begin read at 2016-07-08T05:50:26.215-07:00; advertising.edmunds.admax:1:5; advertising.edmunds.admax:2:2; advertising.edmunds.admax:3:3 begin read at 2016-07-08T05:50:30.517-07:00; advertising.edmunds.admax:0:4 > map

[Task] - Task:attempt_local866350146_0001_m_000000_0 is done. And is in the process of committing

[LocalJobRunner] - advertising.edmunds.admax:2:6; advertising.edmunds.admax:3:7 begin read at 2016-07-08T05:50:26.215-07:00; advertising.edmunds.admax:1:5; advertising.edmunds.admax:2:2; advertising.edmunds.admax:3:3 begin read at 2016-07-08T05:50:30.517-07:00; advertising.edmunds.admax:0:4 > map

[Task] - Task attempt_local866350146_0001_m_000000_0 is allowed to commit now

[EtlMultiOutputFormat] - work path: file:/user/camus/kafka/workspace/2016-07-08-12-50-20/_temporary/0/_temporary/attempt_local866350146_0001_m_000000_0

[EtlMultiOutputFormat] - Destination base path: /user/camus/kafka/data

[EtlMultiOutputFormat] - work file: data.advertising-edmunds-admax.3.3.1467979200000-m-00000.avro

[EtlMultiOutputFormat] - Moved file from: file:/user/camus/kafka/workspace/2016-07-08-12-50-20/_temporary/0/_temporary/attempt_local866350146_0001_m_000000_0/data.advertising-edmunds-admax.3.3.1467979200000-m-00000.avro to: /user/camus/kafka/data/advertising-edmunds-admax/advertising-edmunds-admax.3.3.2.2.1467979200000.avro

[EtlMultiOutputFormat] - work file: data.advertising-edmunds-admax.3.7.1467979200000-m-00000.avro

[EtlMultiOutputFormat] - Moved file from: file:/user/camus/kafka/workspace/2016-07-08-12-50-20/_temporary/0/_temporary/attempt_local866350146_0001_m_000000_0/data.advertising-edmunds-admax.3.7.1467979200000-m-00000.avro to: /user/camus/kafka/data/advertising-edmunds-admax/advertising-edmunds-admax.3.7.8.8.1467979200000.avro

[Task] - Task 'attempt_local866350146_0001_m_000000_0' done.
[LocalJobRunner] - Finishing task: attempt_local866350146_0001_m_000000_0
[LocalJobRunner] - map task executor complete.
[Job] -  map 100% reduce 0%
[Job] - Job job_local866350146_0001 completed successfully
[Job] - Counters: 23
File System Counters
FILE: Number of bytes read=117251
FILE: Number of bytes written=350942
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
Map-Reduce Framework
Map input records=10
Map output records=15
Input split bytes=793
Spilled Records=0
Failed Shuffles=0
Merged Map outputs=0
GC time elapsed (ms)=13
Total committed heap usage (bytes)=251658240
com.linkedin.camus.etl.kafka.mapred.EtlRecordReader$KAFKA_MSG
DECODE_SUCCESSFUL=10
SKIPPED_OTHER=10
File Input Format Counters 
Bytes Read=0
File Output Format Counters 
Bytes Written=5907
total
data-read=840
decode-time(ms)=123
event-count=20
mapper-time(ms)=58
request-time(ms)=12114
skip-old=0
[CamusJob] - Group: File System Counters
[CamusJob] - FILE: Number of bytes read:    117251
[CamusJob] - FILE: Number of bytes written: 350942
[CamusJob] - FILE: Number of read operations:   0
[CamusJob] - FILE: Number of large read operations: 0
[CamusJob] - FILE: Number of write operations:  0
[CamusJob] - Group: Map-Reduce Framework
[CamusJob] - Map input records: 10
[CamusJob] - Map output records:    15
[CamusJob] - Input split bytes: 793
[CamusJob] - Spilled Records:   0
[CamusJob] - Failed Shuffles:   0
[CamusJob] - Merged Map outputs:    0
[CamusJob] - GC time elapsed (ms):  13
[CamusJob] - Total committed heap usage (bytes):    251658240
[CamusJob] - Group: com.linkedin.camus.etl.kafka.mapred.EtlRecordReader$KAFKA_MSG
[CamusJob] - DECODE_SUCCESSFUL: 10
[CamusJob] - SKIPPED_OTHER: 10
[CamusJob] - job failed: 50.0% messages skipped due to other, maximum allowed is 0.1%

最佳答案

我面临着一个非常相似的问题:我的 Kafka/Camus 管道已经运行了大约一年，但最近我在集成来自连接非常不稳定和频繁作业失败的远程代理的摄取时遇到了重复问题。

今天检查的时候Gobblin documentation ，我意识到 Camus sweeper是一个可能是我们正在寻找的工具。尝试将其集成到您的管道中。

我还认为在不久的将来迁移到 Gobblin(Camus 继任者)是个好主意。

关于hadoop - Camus 的预期提交/回滚行为是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38287017/

文章推荐： hadoop - 如何在 cloudsim 中实现 Hadoop？

文章推荐： c++ - std::queue 的基于范围的循环

文章推荐： c++ - 为什么带有约束的模板模板参数需要更严格的参数？

javascript - 点击表单外部的按钮以调用表单中“提交”按钮上的“提交”
假设我有一个带有隐藏提交按钮的表单，我在其中输入值，然后我点击一个按钮，就会出现带有确认消息和确认按钮的对话框。当我单击“确认”按钮时，我还单击了表单中隐藏的提交按钮。这可能吗？我如何在 JQuery
git - 提交 PR 并提交更改后，是否可以压缩 Git 提交？
我们正在学习 Git 并使用 GitHub 作为我们的托管站点。我们都 fork upstream repo 并 PR 我们的提交到 upstream 以获取我们的更改。我们正在努力学习如何压缩我
javascript - 如果我选中 2 个输入单选按钮，禁用的“提交”按钮将启用，但如果我取消选中它们...“提交”按钮不会禁用返回
我只需要一些关于这段代码的帮助。 var prv3; var markIt3 = function(e) { if (prv3 === this && this.checked) { th
javascript - 如何使用 Javascript 提交 2 个表单 w/1 提交？ 1 表格使用 "GET"& 其他使用 "POST"
如果 1 个表单使用“GET”方法而另一个使用“POST”方法，我如何提交位于同一页面上的 2 个表单。每个表单都有相同的操作并转到相同的下一页。需要帮忙。感谢大家的帮助。我怎样才能得到下面这两个使
Javascript 提交
您好，我的表单中有以下脚本 function pdf() { var frm = document.getElementById("form1"); frm.action = "http://www.
iOS胖静态库&提交
我有一个 iOS 胖静态库(iphoneos 和 iphonesimulator)，如果我在应用程序提交期间使用它，它会因为二进制文件包含 iphonesimulator 代码而失败吗？最佳答案我
Git卡在状态/添加/提交
我似乎有一个卡住的 git repo。它卡在所有基本的添加、提交命令上，git push 返回所有内容为最新的。从其他帖子我已经完成了 git gc 和 git fsck/ 我认为基本的调试步骤是
jquery 表单使用 .on() 提交
我正在尝试发送由 jquery 创建的表单。该表单附加到一个 div 中，下面的变量“data”是使用 php 创建的，我将只发布最重要的 js 代码。我尝试了很多带有和不带有“on()”的操作，但
Bootstrap 选项卡中的表单不工作/提交
我面临一个简单的问题，但不知道如何解决。我正在使用 twitter bootstrap 的标签。选项卡有效，但每个选项卡中的表单不提交。表单在没有选项卡的情况下提交。以下是我用于标签的链接
git - 检查多个存储库中是否需要推送/提交
我的计算机上有 140 个 git 存储库，每周我可以处理其中 10-15 个。有没有办法知道是否忘记提交/推送我的一个项目？这些存储库都位于同一位置:“C:/Projects”。输出类似于 C:
Javascript if/else 提交
我对 javascript 完全陌生，目前正在开发我的第一个函数。我有这 2 个文本输入区域，可以在其中输入他的姓名和级别。 Nom: Niveau (1 á 6): 提交后，
Docker 提交 - 未保存数据库更改
我安装了最新的 Docker CS，得到了 LAMP image来自 Docker 集线器。我正在尝试在其中创建一个数据库并使用保存在其中的数据库制作一个新图像。启动容器:docker run --
jquery - 提交()事件的错误
我有这个 jQuery 简单代码: 由于某种原因，submit() 无法正常工作(我的表单在单击 old_thumb 按钮后未提交。有人可以帮助我吗？这里是 html 的一部分(它很长
jquery 提交 onclick
如何获得 input type="submit"onclick 事件来触发 commitfunds.valdiate？我不能使用类或 ID。它必须是一个 onclick 事件。这是代码: row A
javascript - 提交/输入后将焦点保持在同一输入字段
关闭。这个问题需要debugging details .它目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and th
javascript 提交()命令不发送我的帖子数据
来自 this earlier thread我以为我知道可以使用 javascript submit() 命令通过 POST 方法发送表单数据。但我无法让它工作。这个演示在目的方面没有明显的意义，但请
mysql XA 提交
在 mysql 重新启动时提交 XA 待处理事务时，出现以下错误。请帮助我解决这个错误。 mysql> XA RECOVER CONVERT XID; +----------+------------
javascript - 逐步增强表格(提交)
我有一个带有的表单. 如果启用了 Javascript，我将删除此 submit -输入字段$('#no-js-submit').remove();并添加“fire-ajax”按钮 $('Fire
javascript - ‘提交’onload进入循环
我希望在页面加载后提交此表单，并且我使用了以下代码来完成此操作。问题是页面不断重新加载并停留在该循环中。 HTML Select Genre
python - Mechanize 提交
我们有一个表单，其中有几个单独的提交按钮，它们执行不同的操作。问题是我有几个具有以下 HTML 的按钮: 现在您无法使用标准的 find_control 函数按值定位元素。所以我写了一个谓词函数来

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

hadoop - Camus 的预期提交/回滚行为是什么？