google-bigquery - 大查询 : Best way to handle frequent schema changes?-6ren

google-bigquery - 大查询 : Best way to handle frequent schema changes?

转载作者：行者123 更新时间：2023-12-05 04:01:45

24

4

我们的 BigQuery 架构是高度嵌套/重复且不断变化的。例如，网站的新页面、表单或用户信息字段将对应于 BigQuery 中的新列。此外，如果我们停止使用某种形式，相应的弃用列将永远存在，因为您无法在 Bigquery 中删除列。

因此我们最终会生成包含数百列的表格，其中许多列已被弃用，这似乎不是一个好的解决方案。

我正在研究的主要替代方案是将所有内容存储为 json(例如，每个 Bigquery 表将只有两列，一列用于时间戳，另一列用于 json 数据)。然后我们每 10 分钟运行一次的批处理作业将执行连接/查询并写入聚合表。但是使用这种方法，我担心会增加查询作业的成本。

一些背景信息:

我们的数据作为 protobuf 传入，我们根据 protobuf 架构更新更新我们的 bigquery 架构。

我知道一个明显的解决方案是不使用 BigQuery 而只使用文档存储，但我们使用 Bigquery 作为数据湖和 BI 的数据仓库，并从中构建 Tableau 报告。因此，我们有将原始数据聚合到服务于 Tableau 的表中的作业。这里的最佳答案对我们来说效果不佳，因为我们获得的数据可能会大量嵌套重复:BigQuery: Create column of JSON datatype

最佳答案

你已经做好了充分的准备，你在问题中布置了几个选项。

您可以使用 JSON 表并保持低成本

你可以使用分区表
你可以聚类你的表

因此，除了只有两个 timestamp+json 列之外，我还添加了 1 个分区列和 5 个簇列。最终甚至使用带有年度后缀的表格。这样，您至少有 6 个维度来扫描有限数量的行以进行重新实现。

另一个是改变你的模型，做一个事件处理中间层。您可以首先将所有事件连接到 Dataflow 或 Pub/Sub，然后在那里处理它并将其作为新模式写入 bigquery。该脚本将能够使用您在引擎中编写的模式动态创建表。

顺便说一句，您可以删除列，这就是重新实现，您可以使用查询重写同一个表。您也可以重新具体化以删除重复的行。

关于google-bigquery - 大查询 : Best way to handle frequent schema changes?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55068538/

24

4

0

文章推荐： apache-spark - Spark/Parquet 分区是否保持顺序？

文章推荐： ddev - 如何在启动后 Hook 上添加别名？

文章推荐：即使模型没有改变，django 也会继续创建新的迁移

文章推荐： angular - 如何在页面中自动刷新 Cognito Token

jQuery - 触发 ('change' ) 与 change()
编辑:为了澄清，我想问的是:在什么情况下您会更喜欢一种语法而不是另一种语法？有什么区别: .trigger('change') 和 .change() 两者都按预期工作。在任何情况下语法都会有所不同
javascript - .change() 和 .on ("change"之间有区别吗？
这个问题在这里已经有了答案: Difference between .on('click') vs .click() (12 个答案) 关闭 6 年前。有什么区别: $('选择器').change
javascript - Select2 off ('change' ).on ('change' .....) 无法更改所选选项
我用的是Select2-4.0.0 和 $gameSelect.select2().on("change",function(e){....} 工作正常。但是当我将它链接起来时('change')就
haskell - 我能得到实现概念的帮助吗， "When a String changes, its type changes"
有一天在#haskell 上，有人提到了当字符串改变时字符串的类型应该如何改变的概念。这让我想起了我项目中的一些代码。它一直困扰着我，我说不清为什么。我现在推测，原因是我没有实现这个概念。这是下面的代
jquery - .trigger ("change") 无法在 .on ("change") 中工作
我使用了 .on("change") 事件函数，因为我的整个代码中有一部分是动态变化的。 .trigger("change") 在 .change() 中工作正常，但在 .on("change") 中
javascript - on-change 和 ng-change 的区别
下面是一个非常简单的表单下拉列表设置。但是，on-change 事件拒绝触发...除非它更改为 ng-change。这让我卡住了大约一个小时，因为我们在网站的其他地方使用了相同的设置(即模型属性/列
laravel - :change and v-on:change in vuejs?有什么区别
我有两个v-model 案例一: 这很好用案例二: 即使改变 u1 也会触发 onDateChange(); 最佳答案 :change 绑定(bind)属性，如 v-bind:change=
RSpec:是否有 `and change` 没有，例如 `and_not to change` ?
我找到了 .and方法对于链接许多期望非常有用。 expect { click_button 'Update Boilerplate' @boilerplate_original.reload
azure - 宇宙数据库 : Are changes ever deleted from Change Feed?
出于合规性原因，我需要捕获所有数据库更改。我知道 Change Feed 存储此信息(并且我正在等待完全保真度来捕获删除)。目前，我一直在通过 Function 触发器读取 Change Feed 并
javascript - ng-change 不起作用，ng-change 后未加载数据
我添加了一个data-ng-change='getSubjectsClasswise(classBean.class_id);'上课标签，但主题未在主题处加载标签。一切看起来都很好，没有遇到问题
javascript - 复选框 $.change 被自身触发并循环，因为它正在 $.change 内部被修改
我有一组复选框，当您单击其中一个时，它们应该全部被选中。当用户单击一个复选框时，它会检查以该类名称开头的所有其他复选框。我想要的是用户单击一个复选框，并且每次单击仅触发一次 $(".atpSelec
Java SWT : Label width not changing after changing it's text
我在 Stack Overflow 上阅读了很多有关此问题的内容，并应用了所有建议的解决方案(getShell pack、布局、getparent 布局等...)，但没有一个起作用。我有一个带有文本
Python 数据帧 : Why does my values change to NaN if I change the indices?
我想更改我的索引。我的数据框如下: partA = pd.DataFrame({'u1': 2, 'u2': 3, 'u3':4, 'u4':29, 'u5':4, 'u6':1, 'u7':323,
javascript - jQuery : Change Dropdown value on change event
我有一个像这样的下拉菜单: Grade Year 旁边还有另一个下拉菜单: 3 4
javascript - jQuery change() 和 bind ("change") 不起作用
这个问题已经有人问过，但我只停留在最基本的层面上。除了选择标记和尝试通过 jquery 捕获更改事件外，我没有向我的 html 添加任何内容。这是我的代码: $('#target').bin
python - Django 表单自定义 : change field on other field change
我只是 Django 的新手几天。现在，当自定义表单中其他字段的值发生变化时，我需要同时更改一个字段中的值和表示形式。此时更改 MyModel 是受限。我的应用程序/models.py: class
c# - WPF ListView : Changing ItemsSource does not change ListView
我正在使用 ListView 控件来显示一些数据行。有一个后台任务接收列表内容的外部更新。新收到的数据可能包含更少、更多或相同数量的项目，而且项目本身可能已更改。 ListView.ItemsSour
Git & 安卓工作室 : Change the details of submitted change list
我在 android studio 中使用 git 插件。我的问题是当我提交更改列表(公开提交)时，但我在更改列表中的评论是错误的/丢失的，我想更改它。问题: 有没有办法通过 AndroidStud
C++ 指针 : changing the contents without changing the address?
MyCustomObject * object=new MyCustomObject(); 假设我的许多类都使用了对象指针，但突然间我想在不更改地址的情况下更改指针的内容。我认为 object =
swift - KVO - change.newValue 和 change.oldValue 为零
我正在使用新的 KeyValue Observing。当变量发生变化时，我接到了我的观察者的电话，但 change struct 附带 newValue和 oldValue都为 nil ，所以它永远不

首页

博学

6Ren·AI

商城

google-bigquery - 大查询 : Best way to handle frequent schema changes?