bigdata - ETL 和 ELT 有什么区别？-6ren

bigdata - ETL 和 ELT 有什么区别？

转载作者：行者123 更新时间：2023-12-05 04:22:21

我知道在ETL中，我们将数据转换并加载到数据仓库中。
在ELT中，我们将数据加载到数据仓库中，然后进行转换。

除了以上两行，它们究竟有何不同？
一个比另一个有什么优势？
在 ELT 中，我看到有人告诉我们，我们利用数据仓库的力量来进行转换。为什么仓库提供转型优势？
在我的用例中，我在源 ADLS(源层)中有源数据，我再次将数据提取到我的 ADLS(原始层)中，因为它使用的是 azure Databricks，然后获取原始层数据并进行转换使用 azure databricks 的数据再次存储在 ADLS(最后一层)中。现在将最后一层数据从 ADLS 复制到 azure sql server db，如下所示。
源 ADLS --> 原始层 ADLS [使用 ADB 复制所有内容(源已安装)]
原始层 ADLS --> 最终层 ADLS [使用 ADB 转换]
最后一层 ADLS --> SQL Server 数据库 [使用 ADF 复制]
它是 ETL 还是 ELT？

最佳答案

@NickW answer 的回答是一个很好的总结。我要补充的是，这在很大程度上取决于你有能力支持什么。如果您的大部分现场人才都是基于 SQL 的，那么 ELT(在存储过程中完成转换等)可能更有意义，因为您的团队不必学习在 ETL 工具中编写转换代码。如果您有 ETL 人才，那么在那里进行转换可能更有意义，这将从您的数据仓库服务器卸载该处理。

这个架构问题可能更多地与您拥有的才能和技能有关。

关于bigdata - ETL 和 ELT 有什么区别？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/74015973/

文章推荐： python - 无法释放之前由 jupyter notebook 输出的 numpy 数组

文章推荐： mysql - 如何在更新表单中使用分组依据？在 SQL 中

文章推荐： c# - ASP.NET 核心 REST 服务返回无效的 json

文章推荐： javascript - 如何为

 或  block 禁用 Prettier，以便保留新行(换行符)？

	
				
				
					
						
							
								
								 
									bigdata - NiFi内存管理
									我只是想了解我们应该如何规划 NiFi 实例的容量。 我们有一个 NiFi 实例，它有大约 500 个流。因此，NiFi canvas 上启用的处理器总数约为 4000。我们同时运行 2-5 个流，不
								
								
								 
									bigdata - 数据湖和大数据是一样的吗？
									我试图了解所有数据湖和大数据之间是否存在真正的区别，如果你检查这两个概念都像一个大存储库，它会保存信息直到有必要，那么，我们什么时候可以说我们正在使用大数据还是数据湖？ 提前致谢 最佳答案 我不能说我
								
								
								 
									bigdata - 通过高维标称属性预测数值属性
									我在挖掘有关物流运输的大型(100K 条目)数据集时遇到困难。我有大约 10 个名义字符串属性(即城市/地区/国家名称、客户/船舶识别码等)。除此之外，我还有一个日期属性“出发”和一个比例缩放数字属性
								
								
								 
									bigdata - 有人能解释一下概率计数是如何工作的吗？
									特别是围绕日志计数方法。 最佳答案 我将尝试阐明概率计数器的使用，但请注意，我不是这方面的专家。 目的是仅使用很少的空间来存储计数器(例如使用 32 位整数)来计数非常非常大的数字。 莫里斯提出了维持
								
								
								 
									bigdata - 我需要多少数据才能使用 Presto？
									我需要多少数据才能使用 Presto？该网站声称它可以查询从千兆字节到 PB 级的数据大小。我了解它是如何用于查询非常大的数据集的，但是有人将它用于数百 GB 的数据吗？ 最佳答案 目前，如果您已经有
								
								
								 
									bigdata - 哪个数据库用于按天比较数据类(class)？
									我目前正在考虑一个小“大数据”项目，我想每 10 分钟记录一些利用率，并将它们写入数据库几个月或几年。 然后我想分析数据，例如通过这些方式: 一天中的哪个时间最好(就低利用率而言)？ 正常工作日和周末
								
								
								 
									bigdata - 在Kafka-storm中未能将偏移数据写入Zookeeper
									我当时正在设置一个 Storm 集群来计算实时趋势和其他统计信息，但是通过允许kafka-spout上次读取的偏移量(kafka-spout的源代码来自此)，我在向项目中引入“恢复”功能时遇到了一些问
								
								
								 
									bigdata - Bigtable 性能影响列族
									我们目前正在调查使用多个列族对我们的 bigtable 查询性能的影响。我们发现将列拆分为多个列族并不会提高性能。有没有人有过类似的经历？ 关于我们的基准设置的更多细节。此时，我们生产表中的每一行都包
								
								
								 
									bigdata - 将数百万个文档写入 Riak
									将大量文档添加到 riak 中的最佳方法是什么？假设有数百万条产品记录，这些记录经常更改(价格等)，并且我们希望非常频繁地更新所有这些记录。有没有比在 Riak 中一一替换 key 更好的方法？一次批
								
								
								 
									bigdata - Kusto 表可以有多个更新策略吗？
									我有一个 Kusto 表，想要从两个 Azure Blob 位置提取数据。来自两个来源的数据都需要进行一些转换，因此我定义了两个更新策略。所以现在我有两个源表和一个目标表。第一个更新策略运行良好，然后
								
								
								 
									bigdata - Kusto 表可以有多个更新策略吗？
									我有一个 Kusto 表，想要从两个 Azure Blob 位置提取数据。来自两个来源的数据都需要进行一些转换，因此我定义了两个更新策略。所以现在我有两个源表和一个目标表。第一个更新策略运行良好，然后
								
								
								 
									bigdata - Apache Flink是如何实现迭代的？
									大数据的DAG(有向无环图)执行很常见。我想知道 Apache Flink 如何实现迭代，因为该图可能是循环的。 最佳答案 如果Flink执行迭代程序，数据流图不是DAG，而是允许循环。但是，这个循环
								
								
								 
									bigdata - Airflow 代码库的部署
									我们正在简化 Airflow 代码库的构建/部署管道。 有没有人有使用 CI/CD 工具为 Apache Airflow 构建和部署管道的经验？ 您如何在不同环境(如测试、暂存、生产等)中部署您的 A
								
								
								 
									hadoop - "Bigdata"有多大数据？
									 按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
								
								
								 
									bigdata - 如何确保特定列值在 Kusto 中有四个字符？
									我将记录作为单个空格分隔的字符串。所以我正在解析它们并使用更新策略将它们摄取到目标表中。但是，我想检查一些条件，例如确保列值(字符串)的长度是否为 4，如果不是，则将其从摄取中删除。是否可以在 Kus
								
								
								 
									bigdata - 我们可以在 Kusto 中以年为单位设置表的保留期吗？
									目前，我只能看到使用以天为单位指定的保留期的示例。我们可以在 Kusto 中以年为单位指定表的保留期吗？我的意思是下面的命令会将保留期设置为 10 年吗？.alter-merge table Tabl
								
								
								 
									bigdata - 在基于 Web 的应用程序中处理大量数据
									为基于 Web 的应用程序存储大量数据的最佳方式是什么？ 每条记录只有 3 个字段，但每天大约有 1.44 亿条记录 - 存储一个月 - 总共 4,464,000,000 条记录。我们四舍五入到 50
								
								
								 
									hadoop - Hive(Bigdata)-分桶和索引的区别
									Hive 中表的分桶和索引之间的主要区别是什么？ 最佳答案 主要区别在于目标: 索引 The goal of Hive indexing is to improve the speed of quer
								
								
								 
									com.bigdata.service.geospatial.ZOrderRangeScanUtil类的使用及代码示例
									本文整理了Java中com.bigdata.service.geospatial.ZOrderRangeScanUtil类的一些代码示例，展示了ZOrderRangeScanUtil类的具体用法。这些
								
								
								 
									bigdata - 如何在 apache ignite 中实现查询并行性？
									我想知道查询并行性在 apache ignite 中是如何实现的。结果数字与没有并行性的结果完全不同。谢谢 最佳答案 在没有查询并行性的情况下，Ignite 在节点之间拆分查询执行:为每个节点映射请求


			
				
					
						
					
					
						行者123
					
					
						个人简介
						
							我是一名优秀的程序员,十分优秀！
						
					
					
				
				
					
					
						
							作者热门文章
						
						
							
								html - 出于某种原因，IE8 对我的 Sass 文件中继承的 html5 CSS 不友好？
							
								JMeter 在响应断言中使用 span 标签的问题
							
								html - 在 :hover and :active? 上具有不同效果的 CSS 动画
							
								html - 相对于居中的 html 内容固定的 CSS 重复背景？
							
						
					
					
			
			
			
					
						
							滴滴打车优惠券免费领取
						
						
					
					
					
					
					
				
					
					
						
							全站热门文章
						
						
							
								JVM实战—1.Java代码的运行原理
							
								ThreeJs-083D动画系统详解
							
								命令模式
							
								3款.NET开源、功能强大的通讯调试工具，效率提升利器！
							
								《痞子衡嵌入式半月刊》第115期
							
								为什么Llama3.370B比GPT-4o和Claude3.5Sonnet更优秀
							
								Powercat无文件落地执行技巧，你确定不进来看看？
							
								实现同步，临界区问题，锁和信号量的实现
							
								关于Jetsonnano(B02)如何部署Yolov8以及一些必要的知识点
							
								哪里有class告诉我？


	

	



		
			Copyright 2021 - 2024 cfsdn All Rights Reserved   蜀ICP备2022000587号
			

			广告合作:1813099741@qq.com
			6ren.com

首页

博学

6Ren·AI

商城

bigdata - ETL 和 ELT 有什么区别？