- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我们相当广泛地使用 Elastic Map Reduce,并且正在用它处理越来越多的数据。有时我们的工作失败是因为数据格式不正确。我们不断修改我们的 map 脚本以处理各种异常,但有时仍有一些格式错误的数据设法破坏我们的脚本。
是否可以将 Elastic Map Reduce 指定为“继续出错”,即使某些 map 或 reduce 作业失败了?
至少,是否可以增加整个集群失败的最小失败任务数(有时,我们在 500 个左右的作业中只有 1 个失败的作业,我们希望至少获得这些结果并让集群继续运行。)
此外,虽然我们可以修改 map 脚本来处理新的异常,但我们使用默认的 Hadoop“聚合”reducer,当它失败时,我们无法捕获异常。是否有任何特殊的方法来处理“聚合”reducer 中的错误,或者我们是否必须使用上面问题 #2 中可用的任何东西(增加失败任务的最小数量。)
最佳答案
您可能会在 mapper 和 reducer 中捕获 Exception
,并且在 catch block 内有一个计数器,如下所示:
catch (Exception ex){
context.getCounter("CUSTOM_COUNTER", ex.getMessage()).increment(1);
System.err.println(GENERIC_INPUT_ERROR_MESSAGE + key + "," + value); // also log the payoad which resulted in the exception
ex.printStackTrace();
}
如果异常消息是您所期望的,并且计数器的值是可以接受的,那么您可以继续查看结果或调查日志。我知道不建议捕获 Exception
但如果您想“继续出错”,那么它几乎是同一回事。由于这里的集群成本受到威胁,我认为我们最好捕获 Excpetion
而不是特定的异常。
不过,它可能会有副作用,例如您的代码可能会在完全错误的输入上运行,如果没有捕获,它可能会更早地失败。但是发生这种情况的可能性非常小。
编辑:
对于第 2 点,您可以使用以下设置每个跟踪器允许的最大失败次数:
conf.setMaxTaskFailuresPerTracker(noFailures);
或
您必须设置的配置是mapred.max.tracker.failures
。您可能知道默认值为 4。对于所有其他 mapred 配置,请参阅 here .
关于hadoop - 弹性 map 减少 : continue on error?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14990445/
我在 AWS Elastic beanstalk 上有一个 tomcat 应用程序,建议 here我正在使用环境属性设置与数据库的 jdbc 连接,此参数包括数据库的用户和密码。问题是,tomcat
经典的Elasticsearch不解析您的日期。也许我开始失明了。我不知道自己在做什么错,我的模板是: "datestamp": {
我想使用 flex 查询在Kibana中创建警报。我正在使用opendistro警报功能。我想检查最近10分钟内cpu.pct字段的所有值是否大于50,如果是,则发出警报。 { "size": 500
我正在使用Kibana中的警报功能,并且想检查字段的最后5个连续值是否超过阈值x,但是如果我在 flex 查询中使用过滤器,则会在前N个聚合之前应用该过滤器。 有没有一种方法可以使用其他选择器或方法在
我们的指数是超标准的。它是平坦的,并使用logstash从oracle / jdbc转储。 我们也使用相当标准的查询语法来查询 flex : { "size": 20, "from"
您好,我正在执行以下查询: { "_source": [ "source1", "source2", "source3", "source4", ], "q
请告诉我正确的方向:) 我有一个任务:通过查询以 flex 搜索方式查找文档,其中可能包含不必要的单词。 我将说明我的意思: 假设我有一些包含单词“ big red car ”的文档(现在它们在索引的
这是我的一份文件可能看起来像的 { "CC":{"colors":["Blue","Green","Yellow"]}, "CN":{"colors":["White"
语境 弹性 6.0.0 我有以下结构: { "age": 24, "blood": 450, "iv": 700, "job": "boss", "damage": "cut,
我可以使文档不可变吗?当文档提交到相同的 id 时,它们是否不会被重写? POST "localhost:9200/index001/_doc/1" // First time it is creat
我正在制作一个图形应用程序,我可以在其中通过拖动多段线的控制点来编辑多段线。但是,我想通过使其具有弹性来使其更易于使用;拖动控制点时,不是移动单个点,我希望也移动该点一定距离内的点,具体取决于“拉”控
我们都知道云计算拥有弹性扩展的特性,所谓的弹性,即云端的可用资源能够随着用户的需求而灵活变化、自由升降,在业务高峰或低谷期,均能匹配适量的资源,既不捉襟见肘、也不过分浪费。弹性云服务器,简单地说,
我有一个索引,其中多个人可以通过他们的姓名+角色分配给一个文档。 到目前为止,我们通过将“人员”添加为嵌套文档并仅将所有相关人员索引到一个文档中来实现搜索。 我们对查询性能不满意,我想尝试从 "peo
我要执行2个不同的批量上传,每次上传的顺序都是完全无法预测的 在一次加载中,我将具有以下字段:SERVER_NAME,OS和PROD_1_VERSION在另一项中,我将具有以下字段:SERVER_NA
如果我有一个索引到Elasticsearch的JSON文档,如下所示: "_source": { "pid_no": 19321, "aggregator_id
我似乎无法按顺序排列 flex 查询的结果。 我将内存利用率统计信息存储在elasticsearch中。文档示例如下所示: { "Component": "ABC", "memUsage"
给定输入“快速的棕色狐狸跳”,我想为单词创建每种可能的 token 组合。因此,示例字符串将被标记为 [ "quick", "quick brown", "quick fox", "quick jum
我基本上是在尝试编写一个查询,它应该在哪里返回文档 学校是“神圣的国际”,成绩是“第二”。 但当前查询的问题在于它没有考虑必须匹配查询部分。即,即使我没有指定学校给我这份文件,因为它不匹配。 查询给了
我正在尝试在Kibana Canvas 中设置日期格式,因此我遵循了此文档: https://www.elastic.co/blog/kibana-canvas-data-table-and-debu
在用 Flex 编写 token 生成器时,我遇到了这个恼人的错误:“无法识别的规则” 我的代码是: /* Keywords */ TYPE int|double|bool|char L
我是一名优秀的程序员,十分优秀!