- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是一个新手,试图了解我们如何将批处理 ETL 过程重写到 Google Dataflow 中。我已经阅读了一些文档,运行了一些示例。
我提议新的 ETL 流程将由业务事件(即源 PCollection)驱动。这些将触发该特定业务实体的 ETL 过程。 ETL 过程将从源系统中提取数据集,然后将这些结果 (PCollections) 传递到下一个处理阶段。处理阶段将涉及各种类型的连接(包括笛卡尔连接和非键连接,例如日期带)。
所以这里有几个问题:
(1) 我提出的方法有效且有效吗?如果不是什么会更好,我还没有看到任何关于使用 Google Dataflow 的现实世界复杂 ETL 过程的演示,只有简单的场景。
是否有更适合的“更高级别”的 ETL 产品?我一直在关注 Spark 和 Flink 一段时间。
我们当前的 ETL 中等复杂,尽管只有大约 30 个核心表(经典的 EDW 维度和事实)和约 1000 个转换步骤。源数据很复杂(大约 150 个 Oracle 表)。
(2) 复杂的非键连接,如何处理?
我显然被 Google Dataflow 所吸引,因为它首先是一个 API,并且并行处理功能似乎非常适合(我们被要求从批处理转移到增量处理)。
用于此用例的 Dataflow 的一个很好的工作示例将真正插入采用!
谢谢,
迈克
最佳答案
听起来 Dataflow 很适合。我们允许您编写一个接受 PCollection
的管道。业务事件并执行 ETL。管道可以是批处理(定期执行)或流(每当输入数据到达时执行)。
大部分连接在 Dataflow 中相对易于表达。对于笛卡尔积,可以使用 side inputs 查看制作 PCollection
的内容可用作另一个 PCollection
中每个元素处理的输入.
你也可以看看使用 GroupByKey
或 CoGroupByKey
实现连接。这些扁平化多个输入,并允许在一个地方使用相同的键访问所有值。您也可以使用 Combine.perKey
计算与键关联的所有元素的关联和交换组合(例如,SUM、MIN、MAX、AVERAGE 等)。
日期带状连接听起来很适合 windowing它允许您编写一个消耗数据窗口的管道(例如,每小时窗口、每日窗口、每天滑动的 7 天窗口等)。
编辑:提及 GroupByKey
和 CoGroupByKey
.
关于join - 与谷歌数据流的复杂连接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35044083/
我正在测试设置SQLAlchemy以映射现有数据库。这个数据库是很久以前自动建立的,它是由我们不再使用的先前的第三方应用程序创建的,因此 undefined 某些预期的事情,例如外键约束。该软件将管理
这个问题在这里已经有了答案: What is the difference between "INNER JOIN" and "OUTER JOIN"? (28 个答案) 关闭 7 年前。 INNE
这个问题在这里已经有了答案: What is the difference between "INNER JOIN" and "OUTER JOIN"? (29 个回答) 关闭7年前. INNER J
假设有两个表: table1.c1 table1.c2 1 1 A 2 1 B 3 1 C 4 2
假设有两个表: table1.c1 table1.c2 1 1 A 2 1 B 3 1 C 4 2
一.先看一些最简单的例子 例子 Table A aid adate 1 a1 2&nb
数据库操作语句 7. 外连接——交叉查询 7.1 查询 7.2 等值连接 7.3 右外
我有两个表 'users' 和 'lms_users' class LmsUser belongs_to :user end class User has_one :lms_user
我试图避免在 Rails 中对我的 joins 进行字符串插值,因为我注意到将查询器链接在一起时灵活性会降低。 也就是说,我觉得 joins(:table1) 比 joins('inner join
我有这个代码 User.find(:all, :limit => 10, :joins => :user_points, :select => "users.*, co
我刚刚开始探索 Symfony2,我很惊讶它拥有如此多的强大功能。我开始做博客教程在: http://tutorial.symblog.co.uk/ 但使用的是 2.1 版而不是 2.0 我的问题是我
什么是 SQL JOIN什么是不同的类型? 最佳答案 插图来自 W3schools : 关于SQL JOIN 和不同类型的 JOIN,我们在Stack Overflow上找到一个类似的问题: http
我有两个 Hive 表,我正在尝试加入它们。这些表没有被任何字段聚集或分区。尽管表包含公共(public)键字段的记录,但连接查询始终返回 0 条记录。所有数据类型都是“字符串”数据类型。 连接查询很
我正在使用 Solr 的(4.0.0-beta)连接功能来查询包含具有父/子关系的文档的索引。连接查询效果很好,但我只能在搜索结果中获得父文档。我相信这是预期的行为。 但是,是否有可能在搜索结果中同时
我正在使用可用的指南/api/书籍自学 Rails,但我无法理解通过三种方式/嵌套 has_many :through 关联进行的连接。 我有用户与组相关联:通过成员(member)资格。 我在多对多
什么是 SQL JOIN,有哪些不同的类型? 最佳答案 插图来自 W3schools : 关于SQL JOIN 和不同类型的 JOIN,我们在Stack Overflow上找到一个类似的问题: htt
我正在尝试访问数据库的两个表。在商店里,我保留了一个事件列表,其中包含 Table Event id, name,datei,houri, dateF,Hourf ,capacity, age ,de
我有 4 个表:booking、address、search_address 和 search_address_log 表:(相关列) 预订:(pickup_address_id, dropoff_a
我在YML中有以下结构:。我正试着创造一个这样的结构:。作业名称和脚本用~分隔,作业用;分隔。。我可以使用以下命令使其正常工作。然而,我想知道是否可以用一个yq表达式来完成,而不是通过管道再次使用yq
我在YML中有以下结构:。我正试着创造一个这样的结构:。作业名称和脚本用~分隔,作业用;分隔。。我可以使用以下命令使其正常工作。然而,我想知道是否可以用一个yq表达式来完成,而不是通过管道再次使用yq
我是一名优秀的程序员,十分优秀!