sql-server - 使用 SSIS，我如何找到人口最多的城市？-6ren

sql-server - 使用 SSIS，我如何找到人口最多的城市？

转载作者：行者123 更新时间：2023-12-04 06:08:20

27

4

我有一个数据流任务，其中包含如下所示的信息:

Province | City    | Population
-------------------------------
Ontario  | Toronto | 7000000
Ontario  | London  |  300000
Quebec   | Quebec  |  300000
Quebec   | Montreal| 6000000

我如何使用聚合转换来获得每个省中人口最多的城市:

Province | City    | Population
-------------------------------
Ontario  | Toronto | 7000000
Quebec   | Montreal| 6000000

如果我将“Province”设置为 Group-By 列，将“Population”设置为“Max”聚合，我该如何处理 City 列？

最佳答案

完全同意@PaulStock 的观点，聚合最好留给源系统。 SSIS 中的聚合是一个完全阻塞的组件，很像排序，我有 already made my argument on that point .

但是有时在源系统中执行这些操作是行不通的。我能想到的最好的办法是基本上对数据进行双重处理。是的，ick，但我从来没有找到一种方法来不受影响地通过一个列。对于最小/最大场景，我希望将其作为一个选项，但显然像 Sum 这样的东西会使组件难以知道它所关联的“源”行是什么。

2005年

2005 年的实现看起来像这样。您的性能不会很好，实际上与良好的性能相差几个数量级，因为除了必须重新处理源数据之外，您还将在其中进行所有这些阻塞转换。

2005 aggregate

合并连接
2005 Merge Inner Join

2008年

2008 年，您可以选择使用 Cache Connection Manager这将有助于消除阻塞转换，至少在重要的地方，但您仍然需要支付双重处理源数据的成本。

将两个数据流拖到 Canvas 上。第一个将填充缓存连接管理器，并且应该是聚合发生的地方。

Warm cache connection manager

现在缓存中有聚合数据，在主数据流中删除查找任务并对缓存执行查找。

常规查找选项卡

General lookup tab

选择缓存连接管理器

Connection manager lookup tab

映射适当的列

Columns lookup tab

巨大的成功
Great success 2008 data flow

脚本任务

我能想到的第三种方法，2005 年或 2008 年，是自己编写。作为一般规则，我尽量避免脚本任务，但在这种情况下它可能是有意义的。您需要将其设为 asynchronous script transformation但只需在那里处理您的聚合。更多的代码需要维护，但您可以省去重新处理源数据的麻烦。

最后，作为一般警告，我会调查关系会对您的解决方案产生什么影响。对于这个数据集，我预计像圭尔夫这样的东西会突然膨胀并与多伦多联系在一起，但如果确实如此，包裹应该怎么做？现在，两者都会导致安大略省 2 行，但这是预期的行为吗？当然，脚本允许您定义在平局的情况下会发生什么。您可能可以通过缓存“正常”数据并将其用作查找条件并使用聚合来撤回其中一个关系，从而使 2008 年的解决方案完全站稳脚跟。 2005 可能只是通过将聚合作为合并连接的左源来做同样的事情

编辑

Jason Horner 在他的评论中有一个好主意。另一种方法是使用多播转换并在一个流中执行聚合并将其重新组合在一起。我不知道如何让它与联合一起工作，但我们可以像上面那样使用排序和合并连接。这可能是一种更好的方法，因为它为我们省去了重新处理源数据的麻烦。

enter image description here

关于sql-server - 使用 SSIS，我如何找到人口最多的城市？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8080979/

27

4

0

文章推荐： sql - 根据 SQL 中的最新版本删除重复项

文章推荐： java - Spring事务管理

ssis - 为什么 SSIS 自定义任务未显示在 SSIS 工具箱中？
我有一些自定义控制流和数据流任务未显示在 SSIS 工具箱中。当我在 SSDT 中打开包含自定义任务的包时，加载该包时出现几个错误。加载 MyModuleTemplate1.dtsx 时出错:由于错
ssis - 在现有 SSIS 包中执行其他 SSIS 包
我有一个现有的 SSIS 包 (load1)，它将数据从一台服务器 (srv1) 加载到我的服务器 (srv2)。在我可以运行 load1 之前，还有 2 个其他负载需要在 srv1 上运行，然后 l
ssis - SSIS 作业可以异步吗？
我有点困惑 async方法是否适用于 SSIS 作业。脚本任务项创建一个面向 .NET Framework 4.5 的 Visual Studio 项目，输出类型为类库。如果我制作主要方法 publ
ssis - 动态文件夹命名 SSIS
有没有一种方法可以在 SSIS 执行期间动态创建目标文件夹而不使用脚本任务，例如。我有代码 123、133、143，如果不存在，我想在下面创建一个文件夹位置 D:\Outbox\ACI\123 D:\
ssis - SSIS 中的父包
我需要执行 29 个 ssis 包。所以计划创建一个主包来执行所有这些包。我不知道如何实现这一点。能否请您简要解释一下。提前致谢 ! 最佳答案这篇文章很好地概括了主包的功能，它基本上是一个在控制流中
ssis - SSIS 中的表达式问题
我有一个像这种格式的字符串。就我而言，我只需要从字符串大小写中提取字符 1)12AB 2)SD12 3)1WE4 输出 1)AB 2)SD 3)WE 我只需要提取字符。我在 SSIS 包的派生列中使用
ssis - SSIS 中未触发数据查看器
使用: Windows 7 企业版； Visual Studio Pro 2017 (15.3.5)；固态硬盘 15.1 无法让数据查看器在我的 SSIS 包上弹出。我确实做了一些 Google-fu
ssis - SSIS 文件名中的通配符
我可以使用什么模式/通配符来分别获取以下两个文件？目前，我正在使用此模式 CRM#ContractsBillingAccount*.csv 但两个文件名都符合此模式。如何避免？ CRM#Contrac
ssis - SSIS 脚本任务中的异常处理
是否可以在脚本任务中将发生的异常重定向到另一个表/日志？如果是这样，该怎么做？最佳答案您可以在脚本任务中执行在 vb.net 或 C# 中可以执行的任何操作。但是如果你在一个脚本任务中做了这么多，
ssis - SSIS 中缓慢变化的维度转换不会更新
我使用 CSV 中的以下内容来测试 SCD。我认为它会识别 LocationID 并在必要时更新记录。但它没有。它只插入新记录。我正在使用带有 Win 身份验证的 Visual Studio 201
ssis - ssis 中的事务隔离级别是如何工作的？
我对 SSIS 事务隔离级别的问题很少。考虑一个场景:我有一个执行 SQL 任务，它在表 A 中插入数据。这个任务指向一个数据流任务，它读取以前插入到 A 上的数据。我已经启动了分布式事务，如果我在
ssis - SSIS 可以按特定顺序执行任务吗？
你好我正在创建一个需要按指定顺序执行以下操作的 ssis 包: 1:处理一些数据 2:将该数据移动到其他一些表 3:获取一些数据并将其推送到纯文本文件中。我为这些创建了 3 个存储过程，我为 1
ssis - SSIS:我没有看到程序包配置向导
使用SQLServer 2012 Enterprise，在“控制流”选项卡中单击鼠标右键时，在SSIS中看不到“程序包配置向导”。我可以看到所有其他项目(日志，数字签名...)。以下是有关我的安装的
ssis - 执行进程任务不显示文本| SSIS
我有一个 Foreach 容器，其中有一个执行进程任务。我有很多 Console.WriteLine() 语句。图像中突出显示的 3 个图像可用于从 .exe 获取输出。我在包中声明了一个变量
ssis - SSIS 中的复杂平面文件
SSIS 非常擅长处理所有记录都相同的平面文件，但当存在一点复杂性时就不太好了。我想导入一个与此类似的文件 - Customer: 2344 Name: John Smith Item
ssis - SSIS 包的权限
当我在 SSIS 包 (ProtectionLevel) 上设置权限并输入 PackagePassword 时，当我在计算机上打开包时，它不会提示我输入密码。我做错了吗？最佳答案你可能没有做错什
ssis - 是否有免费版本的 SSIS？
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
ssis - 如何使用命令行从 biml 生成 ssis 包并在服务器上部署 ssis
我致力于创建 biml。从中生成 ssis 包。构建 SSIS 项目，然后在服务器上部署 ispac 文件。但是这些所有手动步骤都可以自动化吗？我可以使用命令行从 biml 生成 ssis 吗？除
ssis - SSIS 中的事务选项
我已经创建了一个 SSIS 包。如果包失败，我需要将事务应用于此包以进行回滚。我发现的是一个属性“TransactionOption”，它应该被赋予“Required”。我对吗？并且我已将包的 Tr
c# - Visual Studio 2015 SSIS - 未在 SSIS 工具箱中选取自定义 SSIS 组件
我在 Visual Studio 2015 中向 SSIS 添加自定义 SSIS 组件时遇到问题。我的系统是:Windows 8.1 64 位 Visual Studio 社区 2015 版14.0

首页

博学

6Ren·AI

商城

sql-server - 使用 SSIS，我如何找到人口最多的城市？