- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我正在尝试对Google Cloud Dataflow实施自定义无限源,以从Amazon Kinesis队列中读取。为了正确实现检查点,我想了解该机制的工作原理。
DataFlow如何工作
我试图通过阅读DataFlow文档来了解检查点,但是缺少一些关键的内容,因此我阅读了MillWheel论文。首先,让我解释一下我如何理解本文提出的概念。在数据流API方面,我将重点关注强大的生产设置中源及其消费者之间的交互:
在源上调用
createReader()
,并将null值作为CheckpointMark传递给start()
advance()
在阅读器getCheckpointMark()
。 finalizeCheckpoint()
到目前为止读取的getCurrentRecordId
返回的值吗?我问这个问题,是因为我考虑过使用流中的位置,因为它在特定流中是唯一的。但是,如果我以后通过拼合它们来加入几个运动学源,会发生什么->这将导致不同记录可能共享相同ID的情况。我是否应该使用(流名称,位置)元组作为id(在这种情况下是唯一的)。 最佳答案
我们很高兴看到您将Kinesis与Dataflow结合使用。我们希望使用GitHub project向我们的contrib connector for Kinesis发出拉取请求。在开发过程中,我们也很乐意通过GitHub查看您的代码,并在那里提供反馈。
检查点应如何显示?在给定检查点的情况下,读取器是否应该仅读取与之相关的部分数据,还是应该从检查点读取所有数据?换句话说,我的检查点应该是:“x和y之间的数据”还是“x之后的所有数据”?
检查点标记应代表“该阅读器已生成并完成的数据”。例如,如果读者负责特定的分片,则检查点标记可能由分片标识符和已成功读取的该分片内的最后一个序列号Y组成,指示“已生成所有包含Y的数据”。
我知道第一个读者将空值作为检查点标记,这很好-这意味着我应该从应用程序开发人员定义的点开始阅读。但是DataFlow可以像这样创建其他具有null的阅读器吗(例如,我想像一下当jvm死亡时,DataFlow会创建一个新的具有以null作为检查点的阅读器的阅读器)吗?在这种情况下,我不知道我的起始位置是什么,因为我可能已经使用以前的读取器读取了一些数据,但是现在进度的标记已经丢失了。
即使在JVM故障中,最终的检查点也会保留。换句话说,当JVM死亡时,将使用最后确定的最后一个检查点来构造阅读器。除非打算从源头开始读取,否则在您的场景中当JVM在首次成功调用finalizeCheckpoint()
之前死亡时,您不应看到使用空检查点创建的读取器。您可以使用新读取器上的检查点标记为从下一个要读取的记录开始的同一分片构造一个新的迭代器,并且可以继续进行而不会丢失数据。
在用户端用于记录重复数据删除的ID是什么?它是由getCurrentRecordId返回的值吗?我问这个问题,是因为我考虑过使用流中的位置,因为它在特定流中是唯一的。但是,如果我以后通过拼合它们来加入几个运动学源,会发生什么->这将导致不同记录可能共享相同ID的情况。我是否应该使用(流名称,位置)元组作为id(在这种情况下是唯一的)。
在Dataflow中,每个UnboundedSource(实现getCurrentRecordId
并重写requiresDeduping
以返回true
)都将自行删除重复数据。因此,记录ID仅要求对于同一源实例是唯一的。来自两个不同来源的记录可以使用相同的记录ID,并且在展平期间不会将它们视为“重复项”。因此,如果Amazon Kinesis保证所有记录的ID在全局上都是唯一的(跨流中的所有分片)并且是永久的(例如,跨重新分片操作),那么这些ID应该适合用作记录ID。
请注意,getCurrentRecordId
是UnboundedReader
的可选方法-如果您的检查点方案唯一标识每个记录,则无需实现它。 Kinesis使您可以按序列号顺序读取记录,并且看起来序列号是全局唯一的。因此,您可以将每个分片分配给generateInitialSplits
中的不同工作人员,并且每个工作人员可能永远不会产生重复数据-在这种情况下,您可能根本不必担心记录ID。
大多数答案都假设简单的情况,即您的Kinesis流永远不会更改其分片。另一方面,如果流上的分片发生变化,那么您的解决方案将变得更加复杂。例如,每个工作人员可能负责一个以上的分片,因此检查点标记将是分片的映射->序列号而不是序列号。而且拆分和合并的碎片可能会在不同的Dataflow工作人员之间移动以平衡负载,并且可能很难保证两个不同的工作人员都不会两次读取Kinesis记录。在这种情况下,将Kinesis记录ID与您所描述的语义一起使用就足够了。
关于java - 自定义无限制源在Google Cloud DataFlow中如何工作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34118103/
这里的这个问题对 updating Google Sheets charts linked to Google slides 有一个简洁的解决方案. function onOpen() { var
我正在尝试将 Google 表单添加到 Google 类作业中,但似乎不可能。 首先,它在这里 ( https://developers.google.com/classroom/reference/
出于某种原因,无论我做什么以及我如何尝试,这个日期格式化程序都不起作用。工具提示仍然显示错误的格式。你可以试试代码here . 在代码中我必须注释掉 formatter.format(dataTabl
我目前正在使用访问 token 和刷新 token 从 Google Analytics Reporting API (v4) 中提取数据。当我致力于自动从 Google Analytics 中提取数
我已在 Google 云端硬盘中创建了一个文件夹,例如测试一下,放入3个文件 a.jpg, b.jpg, c.jpg 我希望在同一帐户下的 Google 电子表格中访问文件,例如生成图像文件的链接,可
电子表格 A 是欢迎新移民来到我们小镇的团队的主数据源。它里面有大量非常敏感的数据,不能公开,哪怕是一点点。 (我们谈论的是 child 的姓名和出生日期以及他们在哪里上学……保证电子表格 A 的安全
有没有办法在 Google 文档中编写 Google Apps 脚本以从 Google 表格中检索仅限于非空白行的范围并将这些行显示为表格? 我正在寻找一个脚本,用于使用 Google Apps 脚本
有没有办法在 Google 文档中编写 Google Apps 脚本以从 Google 表格中检索仅限于非空白行的范围并将这些行显示为表格? 我正在寻找一个脚本,用于使用 Google Apps 脚本
尝试检索存储在 google firebase 中名为条目的节点下的表单条目,并使用谷歌工作表中的脚本编辑器附加到谷歌工作表。 我已将 FirebaseApp 库添加到谷歌表脚本编辑器。然后我的代码看
是否可以将我的 Web 应用程序的登录限制为仅限 google 组中的帐户? 我不希望每个人都可以使用他们的私有(private) gmail 登录,而只能使用我的 google 组中的用户。 最佳答
我们想使用 Google 自定义搜索实现 Google 附加链接搜索框。在谷歌 documentation , 我发现我们需要包含以下代码来启用附加链接搜索框 { "@context"
我想将特定搜索词的 Google 趋势图表添加到我的 Google Data Studio 报告中,但趋势不是数据源列表中的选项。我也找不到嵌入 JavaScript 的选项。是否可以将趋势图表添加到
是否可以将文件从 Google Drive 复制到 Google Cloud Storage?我想它会非常快,因为两者都在类似的存储系统上。 我还没有看到有关无缝执行此操作的任何方法的任何信息,而无需
之间有什么区别 ga('send', 'pageview', { 'dimension1': 'data goes here' }); 和 ga('set', 'dimension1', 'da
我正在尝试记录每个博客站点作者的点击率。 ga('send', 'pageview'); (in the header with the ga code to track each page) ga(
我设置了 Google Tag Manager 和 2 个数据层变量:一个用于跟踪用户 ID,传递给 Google Analytics 以同步用户 session ,另一个用于跟踪访问者类型。 在使用
我在我们的网站上遇到多个职位发布的问题。 我们在加拿大多个地点提供工作机会。所有职位页面都包含一个“LD+JSON ”职位发布的结构化数据,基于 Google 的职位发布文档: https://dev
公司未使用 Google 套件,使用个人(消费者)帐户(甚至是 Google 帐户)违反公司政策。 需要访问 Google Analytics - 没有 Google 帐户是否可能? 谢谢 最佳答案
我想分析人们使用哪些搜索关键字在 Play 商店中找到我的应用。 那可能吗?我怎么能这样做? 最佳答案 自 2013 年 10 月起,您可以关联您的 Google Analytics(分析)和 Goo
Google Now 和 Google Keep 中基于时间和位置的提醒与 Google Calendar 事件提醒不同。是否有公共(public) API 可以访问 Now 和 Keep 中的这些事
我是一名优秀的程序员,十分优秀!