python - 使用 Python 和 SQL Server 的 ETL 过程需要很长时间才能加载-6ren

python - 使用 Python 和 SQL Server 的 ETL 过程需要很长时间才能加载

转载作者：行者123 更新时间：2023-11-28 17:12:11

27

4

我正在寻找一种可以提高 csv 文件 SQL Server 数据库加载过程性能的技术。我尝试了各种方法，但似乎无法突破 5.5 小时的障碍。这只是测试加载一年的数据，即大约 200 万条记录。我最终要加载 20 年的数据，因此连续 4 天加载数据是行不通的。

挑战在于，必须在加载时丰富数据。我必须添加一些列，因为该信息不是文件的 native 信息。到目前为止，我已经尝试过:

使用 petl 将列附加到数据，然后将其刷新到数据库。
使用 pandas 将列附加到数据，然后将数据框刷新到数据库。
使用批量加载加载中间暂存表，然后使用 T-SQL 填充额外的列，然后将其推送到最终暂存表。

批量加载工作得非常快，但随后我必须为额外的列添加数据，我们又回到了行级操作，我认为这是这里的瓶颈。我正准备尝试:

使用 Pandas 附加数据。
将数据写回 CSV。
批量加载 CSV。

这让我很困扰，因为我现在有两个 I/O 操作。将文件读入 pandas 并再次写回文件。

我在某处读到 Pandas 是用 C 或其他语言编写的，所以它应该非常快。将数据帧刷新到数据库并不是那么快。在这一点上，我想问是否有人有他们在现实世界中使用的更快的方法。到目前为止，我所拥有的如下:

import pypyodbc
conn_str = "DSN=[dsn name];"
cnxn = pypyodbc.connect(conn_str)
crsr = cnxn.cursor()
sql = "BULK INSERT pre_stage_view FROM '[file path]' WITH (FIELDTERMINATOR = ',',ROWTERMINATOR = '\n')"
crsr.execute(sql)
cnxn.commit()
crsr.close()
cnxn.close()

这是删除 header 的存储过程:

DELETE FROM pre_stage_table WHERE Symbol = 'Symbol'


INSERT INTO stage_table(
[Symbol],
[Exchange],
[Date],
[Open],
[High],
[Low],
[Close],
[Volume],
[SourceSystem],
[RunDate]
)
SELECT
[Symbol],
@exchange, --passed in proc parameter
[Date],
[Open],
[High],
[Low],
[Close],
[Volume],
'EODData',
CURRENT_TIMESTAMP
FROM pre_stage_table


TRUNCATE TABLE pre_stage_table

最佳答案

Bulk load works REALLY fast but then I have to add the data for the extra columns and we're back to row level operations which I think is the bottleneck here.

抱歉，我不明白为什么要进行行级操作。尝试:

1) 批量加载到阶段表

2) MERGE带有目标表的阶段表

您仍将获得基于集合的方法，并且性能可能不错。请记住禁用触发器(如果可能的话)，而且您可以删除索引、加载数据并在之后重建它们。

关于python - 使用 Python 和 SQL Server 的 ETL 过程需要很长时间才能加载，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46855689/

27

4

0

文章推荐： python - Django 中的 URL 路径参数与查询参数

文章推荐： python - 将分隔符从分号转换为 CSV 中的逗号？

文章推荐： javascript - 检查句子中是否存在日期字符串 (dd/mm/yyyy)？

etl - ETL 框架所需的功能是什么？
我正在编写一个 ETL(在带有 mongodb 后端的 python 中)并且想知道:应该将 ETL 什么样的标准函数和工具称为 ETL？此 ETL 将尽可能通用，采用可编写脚本和模块化的方法。大多
etl - 更改数据捕获多个表以进行增量加载 - ETL
我正在构建一个从 informatica cdc 获取数据的暂存区。现在，例如，假设我正在复制两个表以进行增量加载。每次加载后，我必须从暂存表中删除已处理的数据。我连接这两个表来填充我的目标维度。问题
etl - 我需要 ETL 吗？
我们目前使用 Datastage ETL 来 - 每天从 15 个表(3 个不同的架构)导出一个 CSV/文本文件，其中包含数据。我想知道是否有一种更简单的方法可以在不使用 ETL 的情况下完成此操
etl - 如何使用 OrientDB ETL 仅创建边
我有两个 CSV 文件: 首先包含以下格式的 ~ 500M 记录 id,name 10000023432,Tom User 13943423235,Blah Person 第二个包含 ~ 1.5B 以
etl - DWH 和 ETL 解释
在这篇文章中，我不是在问任何教程，如何做某事，在这篇文章中，我请求您的帮助，如果有人可以用简单的话解释我，什么是 DWH(数据仓库)以及什么是 ETL。当然，我在 google 和 youtube
etl - DWH 和 ETL 解释
在这篇文章中，我不是在问任何教程，如何做某事，在这篇文章中，我请求您的帮助，如果有人可以用简单的话解释我，什么是 DWH(数据仓库)以及什么是 ETL。当然，我在 google 和 youtube
etl - 如何使用 Scriptella 对多个文件进行 ETL？
我有多个日志文件 1.csv、2.csv 和 3.csv 由日志报告生成。我想读取这些文件并使用 Scriptella 同时解析它们。最佳答案 Scriptella 不提供开箱即用的并行作业执行。相
kiba-etl - 如何将参数传递到您的 ETL 作业中？
我正在构建一个 ETL，它将通过一个变量在不同的源上运行。我如何执行我的工作(rake 任务) Kiba.run(Kiba.parse(IO.read(etl_file),etl_file)) 并为
etl - 使用 etl 将边导入 OrientDB
我有 3 个表，一个用于顶点 A，一个用于顶点 B，第三个用于从 B 到 A 的边。如何将此图导入 OrientDB？目前，教程只说如何导入两个csv文件，一个用于顶点A，另一个用于顶点B和从A连接
etl - 用于 ETL 的 Apache NIFI
将 Apache NIFI 用于 ETL 过程的效果如何，源为 HDFS，目标为 Oracle DB。 Apache NIFI 与 Pentaho、Datastage 等其他 ETL 工具相比有哪些局
rhino-etl - 在 Rhino-Etl 中链接输入操作
我最近才开始使用 Rhino-Etl对于非常简单的 ETL 过程，并取得了巨大的成功。我现在有一个稍微复杂的场景要解决，但我没有发现 ConventionInputCommandOperation 以
kiba-etl - 使用 Kiba-ETL 将表转换为集合的散列
我正忙于处理 ETL 管道，但对于这个特定问题，我需要获取一个数据表，并将每一列变成一个集合 - 即一个唯一数组。我正在努力思考如何在 Kiba 框架内实现这一目标。这是我要实现的目标的本质: 来
etl - 在 ETL 场景中使用 Presto 的缺点是什么？
我读过 Presto 用于临时查询，而 Hive/spark 更适用于 ETL 场景。在 ETL 中不使用 Presto 的原因似乎是因为 Presto 查询可能会失败并且没有中间查询容错。然而，看
etl - 通过 Orientdb ETL 添加 Edge 属性
我有 2 个 csv 文件。人.csv ID,PetID,Jumps 1,101,Yes 2,102,No 3,103,Yes 宠物.csv ID,Name 101,Dog 102,Cat 103,
etl - Pentaho ETL 和 Data Analyzer 是不错的选择吗？
我正在寻找 ETL 工具，在谷歌上发现了很多关于 Pentaho Kettle 的信息。我还需要一个数据分析器在 Star Schema 上运行，以便业务用户可以玩转并生成任何类型的报告或矩阵。 P
etl - 将 Talend ETL 作业公开为 Web 服务
我目前正在评估 Talend ETL(用于数据集成的 Talend Open Studio)。我想知道如何/是否可以将 ETL 作业公开为 Web 服务。我知道我可以将作业导出为 Web 服务并通
etl - 使用 Akka.net/Actor System 进行 ETL 过程
我是 Actor 建模领域的新手，我爱上了这个想法。但是，是否存在某种模式来以安全的方式处理一批仅用于大容量存储的消息？恐怕如果我阅读了预期 500 条的 400 条消息并将它们放入列表中，如果系统
java - 在作业 ETL-Load 中执行步骤 ETL-file-load 时遇到错误
我在 Heroku 服务器上收到此错误，但它在本地完全正常工作。这是从表单获取 CSV 文件并尝试存储在资源文件夹中的 Controller 。 @PostMapping(value = "/imp
PHP MySQL ETL。我应该使用 ETL 工具、存储过程还是 php 脚本？
我们正在重组我们的整个数据库。也就是说，数据库结构发生了翻天覆地的变化。一些表字段将被转换为表行；会有很多验证；一些表被分解成多个表，而另一些则合并在一起。基本上我们正在将遗留数据库更改为 3NF。
etl - 使用pentaho水壶下载文件
我正在尝试创建一个可以通过 HTTP 下载多个文件的作业。这些文件的列表位于 MySQL 表中。我通过以下步骤创建了一个主要作业:开始、设置变量、FILELIST(我创建的转换)、下载(我创建的作业)

首页

博学

6Ren·AI

商城

python - 使用 Python 和 SQL Server 的 ETL 过程需要很长时间才能加载