google-bigquery - 在 BigQuery 接收器中进行一次处理的上下文中，重新洗牌是什么意思？-6ren

google-bigquery - 在 BigQuery 接收器中进行一次处理的上下文中，重新洗牌是什么意思？

转载作者：行者123 更新时间：2023-12-04 18:19:36

25

4

我正在阅读 article关于由某些 Dataflow 源和接收器实现的一次性处理，我在理解 BigQuery 接收器上的示例时遇到了麻烦。
从文章

Generating a random UUID is a non-deterministic operation, so we must add a reshuffle before we insert into BigQuery. Once that is done, any retries by Cloud Dataflow will always use the same UUID that was shuffled. Duplicate attempts to insert into BigQuery will always have the same insert id, so BigQuery is able to filter them

// Apply a unique identifier to each record
c
 .apply(new DoFn<> {
  @ProcessElement
  public void processElement(ProcessContext context) {
   String uniqueId = UUID.randomUUID().toString();
   context.output(KV.of(ThreadLocalRandom.current().nextInt(0, 50),
                                     new RecordWithId(context.element(), uniqueId)));
 }
})
// Reshuffle the data so that the applied identifiers are stable and will not change.
.apply(Reshuffle.of<Integer, RecordWithId>of())
// Stream records into BigQuery with unique ids for deduplication.
.apply(ParDo.of(new DoFn<..> {
   @ProcessElement
   public void processElement(ProcessContext context) {
     insertIntoBigQuery(context.element().record(), context.element.id());
   }
 });

什么改组意思是如何防止在后续重试中为相同的插入生成不同的 UUID？

最佳答案

Reshuffle 以不同的方式对数据进行分组。然而，在这里它被用于它的副作用:检查点和重复数据删除。

如果没有重新洗牌，如果同一个任务生成 UUID 并将数据插入到 BigQuery，则存在工作器重新启动的风险，新工作器会生成新的 UUID 并将不同的行发送到 BigQuery，从而导致重复行。

Reshuffle 操作将 UUID 生成和 BigQuery 插入分为两个步骤，并在它们之间插入检查点和重复数据删除。

首先，生成 UUID 并发送到重新洗牌。如果 UUID 生成工作程序重新启动，则没关系，因为重新洗牌会删除重复的行，从而消除失败/重新启动的工作程序中的数据。

生成的 UUID 由 shuffle 操作检查点。

BigQuery 插入工作程序使用检查点 UUID，因此即使它重新启动 - 它也会向 BigQuery 发送完全相同的数据。

BigQuery 使用这些 UUID 对数据进行重复数据删除，因此在 BigQuery 中消除了来自重新启动的插入工作器的重复数据。

关于google-bigquery - 在 BigQuery 接收器中进行一次处理的上下文中，重新洗牌是什么意思？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52520614/

25

4

0

文章推荐： java - 在Gradle Spring Boot Hibernate项目中设置LiquiBase

文章推荐：斯卡拉 : eta expansion of function values (not methods)

文章推荐： rest - 使用 curl/REST 和 token 将 SSH 公钥上传到 bitbucket 云

JavaScript:意思？
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
python - 装箱(意思)
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topi
c - 返回什么；意思？
在main()中声明其原型(prototype)的函数的返回数据类型为void。它包含一个指令返回；如 main() { void create(int *p); *some code
scala 奇怪的符号 "_@"意思
我想知道这个 scala 符号是什么:_@。 (搜索引擎无法识别奇怪的字符，因此很难在 google 上找到任何内容...) 这里是上下文: def doNodeParse(json: JValue)
gcc - 什么 '__asm__(".previous");'意思？
在尝试编译我的项目时，它使用了一些第三方头文件，使用 mingw 4.4，我遇到了以下错误: Assembler messages: Error: junk at end of line, first
c - 什么 ((void (*)())buf)();意思？
我正在解决 picoCTF 上的二进制漏洞利用挑战，并遇到了这段代码: ((void (*)())buf)(); 哪里buf是一个字符数组。我解决了挑战，但似乎无法理解它到底在做什么。我看了this
javascript - export default something() 意思
我正在浏览 React Navigation docs我在那里遇到了这样的事情: import Ionicons from 'react-native-vector-icons/Ionicons';
selenium -//按钮[@type ='submit']意思
selenium 中以下命令的含义是什么？我尝试创建一个自动测试用例。然后如下://button[@type='submit'] 我在 selenium 工具中看到的语法。最佳答案这是一个 XP
c - a[0] 在多维数组中表示(意思)是什么？
我刚开始看书学习 C 语言，对他们讨论指针和数组的部分并没有感到困惑。如果有一个名为 a[NUM_ROW][NUM_COLS] 的多维数组(我只是将此数组讨论为特定的二维数组)，那么 a[0] 是什么
c - while (*p2++ = *p1++); 是做什么的？意思？
这个问题在这里已经有了答案: How does "while(*s++ = *t++)" copy a string? (17 个答案) 关闭 9 年前。我有一个代码块: int main ()
linux - 什么信号(SIGCHLD，SIG_DFL);意思？
我没有在我的代码中处理 SIGCHLD。我的进程在终止后仍然立即被删除。我希望它成为僵尸进程。如果我将 SIGCHLD 设置为 SIG_DFL 那么它会起作用吗？如何将 SIGCHLD 设置为 SI
python - fig, ax = plt.subplots() 意思
我已经使用 matplotlib 一段时间了，但我并不真正理解这一行的作用。 fig, ax = plt.subplots() 谁能解释一下？最佳答案 plt.subplots() 基本上是一个(非
c - double* (*p[3]) (void* (*)()); 是什么意思？意思？
我很难理解以下声明的含义。这个申报标准吗？ double* (*p[3]) (void* (*)()); 谁能帮我理解这个声明的意思？最佳答案阅读复杂声明的规则:找到最左边的标识符并向外工作，记住
c - 这个声明 typedef void foo(); 是什么意思？意思？
关闭。这个问题需要details or clarity .它目前不接受答案。想改进这个问题吗？通过 editing this post 添加细节并澄清问题. 关闭 8 年前。 Improve t
shell - 1>/dev/null 2>&1 & pid1=$!意思？
我正在学习如何并行运行多个进程 ./script1.sh param1 1>/dev/null 2>&1 & pid1=$! ./script1.sh param2 1>/dev/null
javascript - 在 Chaplin js 框架中，以 ! 为前缀的事件是做什么的？意思？
我看到这些事件散布在 chaplin 示例代码中，但在文档或源代码中没有任何解释。似乎这意味着它是一个全局事件，触发了一个 Action 。那是对的吗？它们只是一个惯例，还是以某种方式强制执行？ #
c - C 表达式 ((void(*)(void))0)(); 是什么意思？意思？
((void(*)(void))0)(); 所以我们将整数 0 类型转换为这个棘手的类型 (void(*))(void) 然后执行它。消息来源声称这应该有效，但实际上是什么？我想这一定是像 #def
javascript - following a function with (jQuery, window, document) 是什么意思？意思？
这个问题在这里已经有了答案: How does this JavaScript/jQuery syntax work: (function( window, undefined ) { })(win
fortran - 在 Fortran 中，.feq 有什么作用？或.fne。意思？
if(a .feq. 5.0_dp) then **** if(a .fne. 5.2_dp) then ***我遇到了一些这样的代码。 .feq 有什么作用？或.fne。意思？是“=”还是“\=”？
java - Java 中的通配符 Generic 和意思，下界或上界
所以我在阅读泛型方法时感到很困惑。先说一下这里的问题: 在这个例子中:假设我需要一个适用于任何类型 T 的 selectionSort 版本，方法是使用调用者提供的外部可比较对象。第一次尝试: pu

首页

博学

6Ren·AI

商城

google-bigquery - 在 BigQuery 接收器中进行一次处理的上下文中，重新洗牌是什么意思？