- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 Azure Data Factory V2
将一些 csv 文件从 Azure Data Lake
传输到 Azure Synapse
我有一个循环来查找我的 DataLake
上特殊文件夹中的所有文件。
在我有一个 DataFlow 将数据从暂存表传输到主表之后。
在我的 for-each 循环中,首先我通过 SP 清理我的暂存表,然后我从 csv 文件中读取数据(一个接一个)。将数据从 CVS 传输到我的暂存表,我正在使用 Copy Data
任务。我将所有列读取为 varchar
并且登台表中的所有列都是 varchar
(此处没有强制转换)
每个文件大约有 20 列和大约 216 行。
我想知道为什么只有三个文件我的管道需要这么多时间?
这是我清理临时表的任务。
这是我的 SQL 服务器规模和使用情况。
我在恢复 Synapse 服务后运行了我的管道。那只是与我的突触一起工作的管道和服务。
这是我的存储过程:
CREATE PROCEDURE [stg].[...._Truncate]
AS
TRUNCATE TABLE [stg].[....e]
GO
这是我的DF
SELECT
Convert(int,S.[MMSI]) AS [MMSI] ,
Convert(int,S.[IMO] ) AS [IMO] ,
Convert(int,S.[SHIP_ID] )AS [SHIP_ID] ,
Convert(numeric(8, 5),S.[LAT] ) AS [LAT] ,
Convert(numeric(8, 5),S.[LON] ) AS [LON] ,
Convert(int,S.[SPEED] ) AS [SPEED] ,
Convert(int,S.[HEADING] ) AS [HEADING] ,
Convert(int,S.[COURSE] ) AS [COURSE] ,
Convert(int,S.[STATUS] ) AS [STATUS] ,
Convert(datetime,S.[TIMESTAMP] ) AS [TIMESTAMP] ,
Convert(varchar(5),S.[DSRC] ) AS [DSRC] ,
Convert(int,S.[UTC_SECONDS] ) AS [UTC_SECONDS] ,
'M....._Simple' AS [ETL_CREATED_BY],
GETUTCDATE() AS [ETL_CREATED_DATE],
CONVERT(BIGINT, replace(CONVERT(VARCHAR, GETDATE(), 112), '/', '') + replace(CONVERT(VARCHAR, GETDATE(), 108), ':', '')) AS [ETL_PROCESS_ID]
FROM [stg].[....e] AS s
这是我的派生列
这是在我的数据流中结束映射
我应该在这里做点什么吗?
最佳答案
我觉得这里的问题有点困惑,所以我要尝试回答一下。了解有很多潜在因素,我的回答并不是对 Data Flow performance techniques 的详尽审查。 .
首先,让我总结一下我所理解的项目。对于 ADLS 文件夹中的每个文件,您似乎具有以下内容:
据我所知,这个过程似乎在起作用。问题是关于数据流的执行时间。
要考虑的一般性能指南:
注意跨区域操作:网络延迟可能是一个真正的 killer ,并且会让您付出金钱。为了获得最快的性能,存储、数据工厂和 Synapse 资源都应该位于同一个数据中心。
源和接收器分区可以帮助处理非常大的数据集和复杂的场景,但这是一个相当棘手的主题,并且(很可能)对您的场景没有帮助。
SPECIFIC 您发布的场景,我会考虑重新设计工作流程。从较高的层次来看,您正在为每个(小)文件执行以下操作:
我个人的经验是不要使用数据流跨越 Synapse 边界:如果操作是从 Synapse 到同一个 Synpase,那么就在 Synapse 中运行逻辑。换句话说,由于 Source 和 Sink 都在 Synapse 中,我会用存储过程替换数据流。
更好的是,我会将 COPY 事件和数据流合并为一个数据流。数据流可以读取 ADLS 作为源,转换数据,并将其插入到 Synapse。这将从进程中删除暂存表。 DF甚至可以将操作后的文件归档:
最后,我会寻求限制数据流执行的次数。您是否有理由必须逐个文件地处理此文件?数据流源可以轻松处理整个文件夹,如果您有基于该值的逻辑,甚至可以将文件名捕获为一列 [见上图]。这将消除多次运行数据流的需要,并且可以显着提高整体性能。
关于azure-pipelines - 缓慢的 Azure 数据工厂管道,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61532258/
我应该执行以下操作: 可能通过服务/工厂,使用 $q(异步)查询 API 以获取大型名称数据集 有另一个服务(也是异步的),它应该只返回上述工厂的元素,如果它们与某个字符串(搜索字段)匹配。目的是缩小
我有一个通用的基类。我有一个实现基类的具体类。 我将如何创建工厂类/方法来交付不同类型的具体类? 举个例子: public class ReceiverBase where T : IInte
我正在查看以下链接中的 Ninject Factory 扩展: http://www.planetgeek.ch/2011/12/31/ninject-extensions-factory-intro
工厂、提供商和服务这三个术语之间有什么区别? 刚刚了解 NHibernate 及其存储库模式(POCO 类等)。 最佳答案 工厂:通过将一堆位组合在一起或基于某种上下文选择类型来组装类 Provide
使用CGLIB我可以做到 final var enhancer = new Enhancer(); enhancer.setUseCache(false); enhancer.setSuperclas
我试图在 Kotlin 中使用伴随对象工厂方法(相当于 Java 中的静态工厂方法)创建一个嵌套内部类。这是我的代码的简化版本。 class OuterClass { var myData:L
我正在为我的大学做一个项目,但遇到了问题。 基本上,该项目由一个客户端-服务器应用程序组成,我想创建一个用于通信的 Packet 类。数据包由 header 和主体组成。现在问题来了。我可以有一些不同
这个问题在这里已经有了答案: Why doesn't polymorphism work without pointers/references? (6 个答案) What is object sl
我正在制作一个套接字工厂。我希望每个外部应用程序都使用 Socket 类的接口(interface),它是几个类(ServerSocketTCP、ClientSocketTCP、ServerSocke
我是 angularjs 的新手,我正在尝试创建一个小型电影数据库。这是我第一次使用工厂,我想确保这是正确的方法,以及如何在另一个功能中使用这个工厂,如下所示? 我希望这个工厂只运行一次,这样我就可以
这个问题在这里已经有了答案: Java inner class and static nested class (28 个答案) 关闭 5 年前。 public class DataFactory
我看过很多关于 C++ 工厂的帖子,但到目前为止我还没有看到解决我的问题的解决方案。 (虽然我可能遗漏了一些东西。) 示例控制台应用程序: #include #include #include
这是一个简单的 C++ 项目,有 2 种设计模式:单例和工厂,sigleton 也是一个模板化类,一个接口(interface) (IHash) 和一个类 (Hash1)。一个简单的工厂类 (Hash
这个问题类似于Factory and generics ,并且可能有相同的答案,但它是不同的。我有一个通用基类,它将由完全独立的 JAR 中的类进行扩展。所述 JAR 应该能够在不更改任何其他代码的情
问题是我需要为传递的类创建一个新实例 有没有办法重写这个函数,让它可以接受任意数量的参数? function createInstance(ofClass, arg1, arg2, arg3, ...
我想用简单的 C++ 语法创建一个简单的工厂方法: void *createObject(const char *str,...) { if(!strcmp("X",str)) retu
经过大约 10 个月的程序化 PHP 学习后,我现在正尝试着手研究基本的 OOP 原则和设计模式。这是一个爱好,我没有那么多时间去追求它,所以请原谅这个问题的水平很低。 我的网站(目前 100% 程序
我有一个简单的问题。 我如何编写一个工厂来定义使用 make() 或 create() 的关系,具体取决于原始调用 make() 还是 create()? 这是我的用例: 我有一个简单的工厂 /**
我正在尝试在延迟加载模块中提供 APP_BASE_HREF 注入(inject) token ,然而,工厂方法根本没有被调用。 在这里https://github.com/MaurizioCascia
我有以下 ast: import { factory as f } from 'typescript' const typeDeclaration = f.createTypeAliasDeclara
我是一名优秀的程序员,十分优秀!