- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想将 Spark 和 Spark 流输出到 kafka 恰好一次。但正如医生所说
“输出操作(如 foreachRDD)具有至少一次语义,也就是说,如果发生工作故障,转换后的数据可能会多次写入外部实体。”。
为了进行事务更新,spark 建议使用批处理时间(在 foreachRDD 中可用)和 RDD 的分区索引来创建标识符。此标识符唯一标识流应用程序中的 blob 数据。代码如下:
dstream.foreachRDD { (rdd, time) =>
rdd.foreachPartition { partitionIterator =>
val partitionId = TaskContext.get.partitionId()
val **uniqueId** = generateUniqueId(time.milliseconds, partitionId)
// use this uniqueId to transactionally commit the data in partitionIterator
}
}
最佳答案
Kixer 的高级软件工程师 Cody Koeninger 在 Spark 峰会上讨论了使用 Kafka 的一次性解决方案。本质上,该解决方案涉及通过同时提交存储偏移量和数据。
在 2016 年的 Confluent 聚会上,工程师们在向工程师提到了 only once 的话题时,引用了 Cody 关于这个话题的演讲。 Cloudera 在 http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ 发表了他的演讲.科迪的论文在 http://koeninger.github.io/kafka-exactly-once/#1和他的 github(关于这个主题)在 https://github.com/koeninger/kafka-exactly-once .网上也有他讲课的视频。
Kafka 的更高版本引入了 Kafka Streams 来处理没有 Spark 的恰好一次场景,但该主题仅值得一个脚注,因为问题的框架是与 Spark 一起使用。
关于scala - Spark 输出到 kafka 恰好一次,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39360401/
考虑具有 V 个顶点和 E 个边的图 G(V,E)。我们想用恰好 K 种颜色给顶点图着色。 着色图是指以两个相邻顶点不应该具有相同颜色的方式为每个节点分配颜色。 我们如何实现这个问题? 最佳答案 首先
我遇到的问题可以简化为: Given an array of N positive numbers, find the non-contiguous sequence of exactly K ele
根据这些问题 Subset sum problem和 Sum-subset with a fixed subset size我想知道解决子集和问题的一般算法是什么,我们被迫使用恰好 k 个整数,k <
我想从具有模式的行中取出数字,但它不会按照我的意愿对数字进行分组。 public static void main(String[] args) { Pattern pattern = Pat
我试图弄清楚用于查找与一组字符恰好 N 次出现(不多于少)匹配的正则表达式。这看起来是一项非常简单的任务,但我一直无法为其找到合适的正则表达式。 更具体地说,我想要一个正则表达式来判断给定字符串是否恰
我试过同时使用 httpx 和 aiohttp,并且都有这个硬编码限制。 import asyncio import aiohttp import httpx async def main():
我有一个在 Amazon EC2 云中运行的服务器应用程序。从我的客户端(浏览器)我发出一个 HTTP 请求,该请求将文件上传到服务器,然后服务器处理该文件。如果有很多处理(大文件),服务器总是在 1
我在 PHP 中使用带有 preg_match 函数的 perl 风格的正则表达式。我想验证一个恰好 10 个字符的 key ,包含大写字母字符或数字。 我有 preg_match( '/[^A-Z0
我正试图找到正确的 python 正则表达式来解决这个问题: 给定一个由字符 ?、_ 和 o 组成的字符串,找到长度为 n 的子字符串> 仅包含 ? 和 o 以及至少一个 o。 这是我想出来的,但它似
图中每条边的权重为 1,图中可能有环,如果一个节点有自环,它可以是从 0 到无穷大的任何距离,具体取决于编号。时间我们采取 self 循环。 我已经用bfs解决了这个问题,但是对距离的约束是10^9的
我有一个居中的 DIV,正好(不多也少)900px。我希望它始终居中,并让两个填充 div 填充每一侧页面的其余部分... 给下面的内容(使用 z-index)一个突出显示的类型效果...(这是填充
我的 Xcode 版本是 10.2。当我将应用程序上传到 iTunes Connect 时,显示以下错误: Missing required icon file. The bundle does no
我是一名优秀的程序员,十分优秀!