google-bigquery - 在 Apache Beam 中维护全局状态-6ren

google-bigquery - 在 Apache Beam 中维护全局状态

转载作者：行者123 更新时间：2023-12-01 12:12:41

26

4

我们有一个 PubSub 主题，事件沉入 BigQuery(尽管特定的数据库在这里几乎无关紧要)。事件可能带有新的未知属性，这些属性最终应该作为单独的 BigQuery 列结束。

所以，基本上我有两个问题:

在 Pipeline 中维护全局状态的正确方法是什么(在我的案例中使用了一组遇到的属性)？
一旦遇到新属性并直到执行ALTER TABLE，缓冲/保持事件流的好策略是什么

现在我尝试使用以下(我正在使用 Spotify scio):

rows
  .withFixedWindows(Duration.millis(duration))
  .withWindow[IntervalWindow]
  .swap
  .groupByKey
  .map { case (window, rowsIterable) =>
    val newRows = findNewProperties(rowsIterable)
    mutateTableWith(newRows)
    rowsIterable
  }
  .flatMap(id)
  .saveAsBigQuery()

但这非常低效，因为我们至少需要将整个 rowsIterable 加载到内存中，甚至遍历它。

最佳答案

我们正在构建完全相同的项目，我们正在关注 this approach带有包含模式的刷新侧输入(从 BQ 每隔一段时间刷新一次)。所以基本上:

在侧面输入从 BQ 加载模式
使用流模式将数据流式传输到 BQ，这样您就可以对插入失败的行执行其他操作(即:当它们具有新的未知属性时)
将那些失败的保存到其他地方(数据存储？)以便稍后处理它们(例如，在另一项工作中)
该恢复作业将发布架构更改，最终将由主管道刷新端输入加载(第 1 步)。

我有一个使用令人耳目一新的侧输入方法的工作示例 here

关于google-bigquery - 在 Apache Beam 中维护全局状态，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50630560/

26

4

0

文章推荐： google-cloud-platform - Google Cloud Dataprep 导入配方

文章推荐： java - 实体管理器 : min and max are not retained by Query

文章推荐： module - 我可以只从 F# 模块导入一个声明吗？

SVN 维护
我们已经在我的工作场所使用 SVN 几年了，自从我们安装它以来，除了更新和备份之外，我们真的没有对其进行任何类型的维护。我们还应该做些什么来维护 SVN，或者我们已经做了所有我们真正需要做的事情吗？
java - 编写正则表达式模式以便于理解/维护？
正则表达式模式如下: ".*/.*/.*/.*/.*/.*/(.*)-\d{2}\.\d{2}\.\d{2}.\d{4}.*" 确实很难维护。我想知道，有没有这样的东西: ".*/.*/.*/.*/
jQuery 重构/维护
我已经搜索了一些，但没有找到任何对我有帮助的问题/答案。问题是我的 jQuery 函数调用变得太大而无法维护。我想知道我是否应该进行更多重构，或者是否有更好的方法来完成所有这些调用。当我进行一次调用时
mysql - 维护/更新mysql中的记录顺序
我在 mySql 中有一个记录表。我需要按照用户指定的方式为它们维护订单。所以我添加了一个“位置”列。当我移动特定记录时更新所有记录的 SQL 语句是什么？我有类似的东西: UPDATE items
Golang channel 维护
我正在使用 go channels 作为类似队列的机制，这非常适合我。我正在为每个用户打开这些类似队列的 channel 之一，并为这些 channel 中的每一个都有一个 for-range 循环。
docker - 如何管理docker镜像依赖(维护)
使用 docker，您可以非常好地基于其他图像创建图像。例如，您可以制作一个镜像 Java-jdk7(基于最新的 Ubuntu LTS)，并在此基础上创建镜像 elastic-search 和 tom
arrays - 维护 bash 关联数组的插入顺序
我正在用 Bash 编写脚本。我的关联数组有问题，当我像这样在我的数组中放置一条记录时: declare -A arr_list_people_name 我将文本放入循环关联数组的方式(将文本排序)
python - 维护 PIP 存储库
我目前正在开发一个系统，该系统需要在没有可用互联网连接的情况下安装 python(或者至少我不能假设有可用的互联网连接)，我想知道维护 PIP 存储库的间接费用是多少，而且这样的存储库也可能会满足系
internationalization - 维护 Chrome 扩展的翻译
我正在考虑使用 Chrome 扩展的国际化支持，如 here 所述. 建议的翻译方法是先创建英文 messages.json 文件，然后将其复制并翻译成给定的语言。我的问题是，这对于初始翻译来说工作
git - 维护 git 存储库的克隆
我想在(自托管)bitbucket 服务器中克隆 github 存储库，并不时从 github 存储库中提取最新更改。在我们的克隆中，我们将做一些永远不会离开我们的存储库的实验性内容。为了显示;对于
iphone - 单点触控中的 session 维护？
我的应用程序基于银行域，需要 session 处理。当应用程序空闲时(应用程序打开后没有任何触摸事件)必须在后台计算时间。当应用程序进入前台时，我处理 session 维护以及 AppDelegat
iphone - 维护 UISegmentedControl 中的选择
我可以保持 UISegmentViewControl 段的选定状态吗？即，即使用户选择了另一个段，也可以保持一个段显示为选中状态？我似乎在任何地方都找不到任何可以做到这一点的东西!! 最佳答案这是不
cocoa - 登录页面的 session 维护
我的要求:我想将登录详细信息(电子邮件、密码)发送到服务器，必须保持有效用户名的 session 。如何使用 iphone SDK 的“NSURLConnection”创建和维护 session ？
.net - 维护 “clean” 程序集引用列表有什么好处？
就像Carl's question over here我想问你(因为我自己找不到 :( ) 删除既不是静态也不是动态(例如通过反射)使用的程序集引用是否有任何好处。最佳答案除了清理项目之外，删除未
javascript - 维护 Bootstrap 在页面之间激活的导航选项卡
我使用的是Bootstrap 3。我目前有2个页面，一个是查看页面，一个是编辑页面。两个页面都有许多导航选项卡，例如 id= tab1、tab2、tab3。我想要实现的是，当我在查看页面的 tab2
javascript - 维护 Chrome 打包应用程序的登录状态
我正在创建 Chrome 应用程序，我希望我的用户在首次进入应用程序时登录或创建用户。目标: 在 Chrome 打包的应用程序上维护登录状态。问题: Cookie - Chrome 打包的应用程序
azure - 维护 azure 资源管理器模板的正确方法
我有arm模板来使用资源及其设置重新创建资源组。这工作得很好。用例: 一些开发人员访问 Azure 门户并更新某些资源的某些设置。有没有办法获得可以应用于我的模板的精确更改以使这些更改生效？ (更新
excel - 维护 Excel 中的日期格式
我有一个包含三个组合框的表单，一个代表该月(可能的)31 天，第二个代表代表月份的 12 个数字，第三个代表与 future 五年相对应的年份值。我将它们连接在一起形成一个日期 TheDay = C
java - 维护 JInternalFrame 的单个实例？
我有一个打开多个 JIF 的应用程序，但我只想创建 JIF 的单个实例，因此我使用这些函数来检查这一点，并在按下某个键后使用 dispose 关闭 JIF(JDesktopPane. getSelec
java - 维护 JComboBox 大小
我想为一个项目制作一个帐户屏幕，但我对 GUI 还很陌生。这是我第一次使用 JComboBox，但遇到了一些麻烦。我基本上想将 JComboBox 放置在一个盒子内，这将成为我的背景图像的一部分。我尝

首页

博学

6Ren·AI

商城

google-bigquery - 在 Apache Beam 中维护全局状态