scala - Spark 输出到 kafka 恰好一次-6ren

scala - Spark 输出到 kafka 恰好一次

转载作者：行者123 更新时间：2023-12-04 21:35:27

25

4

我想将 Spark 和 Spark 流输出到 kafka 恰好一次。但正如医生所说
“输出操作(如 foreachRDD)具有至少一次语义，也就是说，如果发生工作故障，转换后的数据可能会多次写入外部实体。”。
为了进行事务更新，spark 建议使用批处理时间(在 foreachRDD 中可用)和 RDD 的分区索引来创建标识符。此标识符唯一标识流应用程序中的 blob 数据。代码如下:

dstream.foreachRDD { (rdd, time) =>
  rdd.foreachPartition { partitionIterator =>
    val partitionId = TaskContext.get.partitionId()
    val **uniqueId** = generateUniqueId(time.milliseconds, partitionId)
    // use this uniqueId to transactionally commit the data in  partitionIterator
  }
}

但是如何使用 uniqueId 在 kafka 中进行事务性提交。

谢谢

最佳答案

Kixer 的高级软件工程师 Cody Koeninger 在 Spark 峰会上讨论了使用 Kafka 的一次性解决方案。本质上，该解决方案涉及通过同时提交存储偏移量和数据。

在 2016 年的 Confluent 聚会上，工程师们在向工程师提到了 only once 的话题时，引用了 Cody 关于这个话题的演讲。 Cloudera 在 http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ 发表了他的演讲.科迪的论文在 http://koeninger.github.io/kafka-exactly-once/#1和他的 github(关于这个主题)在 https://github.com/koeninger/kafka-exactly-once .网上也有他讲课的视频。

Kafka 的更高版本引入了 Kafka Streams 来处理没有 Spark 的恰好一次场景，但该主题仅值得一个脚注，因为问题的框架是与 Spark 一起使用。

关于scala - Spark 输出到 kafka 恰好一次，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39360401/

25

4

0

文章推荐： Qt 安装程序框架卸载程序

文章推荐： Oracle SQL Union/Merge with Duplicates 问题

文章推荐： ms-access - Access 用户表单无意中更改数据表记录

文章推荐： mathcad - 有条件地突出显示变量

algorithm - 恰好 k 种颜色的图形着色
考虑具有 V 个顶点和 E 个边的图 G(V,E)。我们想用恰好 K 种颜色给顶点图着色。着色图是指以两个相邻顶点不应该具有相同颜色的方式为每个节点分配颜色。我们如何实现这个问题？最佳答案首先
algorithm - 恰好 k 个元素的最小非连续序列
我遇到的问题可以简化为: Given an array of N positive numbers, find the non-contiguous sequence of exactly K ele
algorithm - 恰好 k 个整数的子集和？
根据这些问题 Subset sum problem和 Sum-subset with a fixed subset size我想知道解决子集和问题的一般算法是什么，我们被迫使用恰好 k 个整数，k <
java - 恰好 n 次 - 组
我想从具有模式的行中取出数字，但它不会按照我的意愿对数字进行分组。 public static void main(String[] args) { Pattern pattern = Pat
c# - 恰好 N 个元素的正则表达式，不多不少
我试图弄清楚用于查找与一组字符恰好 N 次出现(不多于少)匹配的正则表达式。这看起来是一项非常简单的任务，但我一直无法为其找到合适的正则表达式。更具体地说，我想要一个正则表达式来判断给定字符串是否恰
python - 并行请求在使用 asyncio 恰好 100 个请求后无限阻塞
我试过同时使用 httpx 和 aiohttp，并且都有这个硬编码限制。 import asyncio import aiohttp import httpx async def main():
恰好 120 秒后 HTTP 504 超时
我有一个在 Amazon EC2 云中运行的服务器应用程序。从我的客户端(浏览器)我发出一个 HTTP 请求，该请求将文件上传到服务器，然后服务器处理该文件。如果有很多处理(大文件)，服务器总是在 1
php - 恰好 10 个字符的 perl 正则表达式
我在 PHP 中使用带有 preg_match 函数的 perl 风格的正则表达式。我想验证一个恰好 10 个字符的 key ，包含大写字母字符或数字。我有 preg_match( '/[^A-Z0
Python:恰好 $n$ [?o] 的正则表达式，至少有一个 [o]
我正试图找到正确的 python 正则表达式来解决这个问题: 给定一个由字符 ?、_ 和 o 组成的字符串，找到长度为 n 的子字符串> 仅包含 ? 和 o 以及至少一个 o。这是我想出来的，但它似
algorithm - 给定一个带有自循环的有向加权图，找到与给定节点 x 恰好 k 距离的节点列表？
图中每条边的权重为 1，图中可能有环，如果一个节点有自环，它可以是从 0 到无穷大的任何距离，具体取决于编号。时间我们采取 self 循环。我已经用bfs解决了这个问题，但是对距离的约束是10^9的
html - 居中 DIV(恰好 900 像素)，每一侧的 div(不透明)填充页面的其余部分
我有一个居中的 DIV，正好(不多也少)900px。我希望它始终居中，并让两个填充 div 填充每一侧页面的其余部分... 给下面的内容(使用 z-index)一个突出显示的类型效果...(这是填充
ios - 恰好 '152x152' 像素的 iPad，在 Xcode 10 中为 iOS 版本 >= 10.0 的 .png 格式
我的 Xcode 版本是 10.2。当我将应用程序上传到 iTunes Connect 时，显示以下错误: Missing required icon file. The bundle does no

首页

博学

6Ren·AI

商城

scala - Spark 输出到 kafka 恰好一次