Python - 多线程帮助 - 读取多个文件

Python - 多线程帮助 - 读取多个文件 - ETL 到 SQL Server

转载作者：太空宇宙更新时间：2023-11-03 15:42:11

28

4

我正在开发一个从本地驱动器读取 DBF 文件并将数据加载到 SQL Server 表中的程序。我对 Python 很陌生，我发现了一些有关多线程的细节，其中大部分都令人困惑。读取和插入的性能很慢，看看我的CPU使用率，我有足够的容量。我也在运行 SSD。

此代码将扩展为读取约 400 个 zip 中的约 20 个 DBF 文件。所以我们讨论的总共是 8000 个 DBF 文件。

我很难做到这一点。可以指点一下吗？

这是我的代码(有点乱，但我稍后会清理它)，

import os, pyodbc, datetime, shutil
from dbfread import DBF
from zipfile import ZipFile

# SQL Server Connection Test
cnxn = pyodbc.connect('DRIVER={SQL Server};SERVER=localhost\test;DATABASE=TEST_DBFIMPORT;UID=test;PWD=test')
cursor = cnxn.cursor()

dr = 'e:\\Backups\\dbf\\'
work = 'e:\\Backups\\work\\'
archive = 'e:\\Backups\\archive\\'


for r in os.listdir(dr):

    curdate = datetime.datetime.now()
    filepath = dr + r
    process = work + r
    arc = archive + r

    pth = r.replace(".sss","")
    zipfolder = work + pth
    filedateunix = os.path.getctime(filepath)
    filedateconverted=datetime.datetime.fromtimestamp(int(filedateunix)
                                                  ).strftime('%Y-%m-%d %H:%M:%S')
    shutil.move(filepath,process)
    with ZipFile(process) as zf:
        zf.extractall(zipfolder)


    cursor.execute(
        "insert into tblBackups(backupname, filedate, dateadded) values(?,?,?)",
    pth, filedateconverted, curdate)
    cnxn.commit()

    for dirpath, subdirs, files in os.walk (zipfolder):

        for file in files:
            dateadded = datetime.datetime.now()

            if file.endswith(('.dbf','.DBF')):
                dbflocation = os.path.abspath(os.path.join(dirpath,file)).lower()

                if dbflocation.__contains__("\\bk.dbf"):
                    table = DBF(dbflocation, lowernames=True, char_decode_errors='ignore')
                    for record in table.records:
                        rec1 = str(record['code'])
                        rec2 = str(record['name'])
                        rec3 = str(record['addr1'])
                        rec4 = str(record['addr2'])
                        rec5 = str(record['city'])
                        rec6 = str(record['state'])
                        rec7 = str(record['zip'])
                        rec8 = str(record['tel'])
                        rec9 = str(record['fax'])
                        cursor.execute(
                       "insert into tblbk(code,name,addr1,addr2,city,state,zip,tel,fax) values(?,?,?,?,?,?,?,?,?)",
                        rec1, rec2, rec3, rec4, rec5, rec6, rec7, rec8, rec9, rec10, rec11, rec12, rec13)
                cnxn.commit()


                if dbflocation.__contains__("\\cr.dbf"):
                    table = DBF(dbflocation, lowernames=True, char_decode_errors='ignore')
                    for record in table.records:
                        rec2 = str(record['cal_desc'])
                        rec3 = str(record['b_date'])
                        rec4 = str(record['b_time'])
                        rec5 = str(record['e_time'])
                        rec6 = str(record['with_desc'])
                        rec7 = str(record['recuruntil'])
                        rec8 = record['notes']
                        rec9 = dateadded
                        cursor.execute(
                        "insert into tblcalendar(cal_desc,b_date,b_time,e_time,with_desc,recuruntil,notes,dateadded) values(?,?,?,?,?,?,?,?)",
                        rec2, rec3, rec4, rec5, rec6, rec7, rec8, rec9)
                cnxn.commit() 

    shutil.move(process, archive)
    shutil.rmtree(zipfolder)

最佳答案

tl;dr:先测量，再修复!

<小时/>

请注意，在最常见的 Python 实现 (CPython) 中，一次只能有一个线程执行 Python 字节码。因此，线程并不是提高 CPU 密集型性能的好方法。如果工作受 I/O 限制，它们可以很好地工作。

但是您首先应该做的是测量。这一点怎么强调都不为过。如果您不知道导致性能下降的原因，则无法修复它!

编写完成这项工作的单线程代码，并在分析器下运行它。首先尝试内置的cProfile。如果这不能为您提供足够的信息，请尝试例如一个line profiler .

分析应该告诉您哪些步骤消耗的时间最多。一旦了解了这一点，您就可以开始改进。

例如，如果将数据填充到 SQL Server 的操作花费最多时间，那么使用多处理来读取 DBF 文件是没有意义的!这甚至可能会减慢速度，因为多个进程会争夺 SQL 服务器的注意力。

如果 SQL 服务器不是瓶颈，并且它可以处理多个连接，我会使用多处理，可能是池.map() 并行读取 DBF 并将数据填充到 SQL 服务器中。在这种情况下，您应该 Pool.map 覆盖 DBF 文件名列表，以便在工作进程中打开这些文件。

关于Python - 多线程帮助 - 读取多个文件 - ETL 到 SQL Server，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42030211/

28

4

0

文章推荐： python - Dict.setdefault 插入排序到列表中

文章推荐： python - Jinja 字典值未显示

帮助! float
我有这个问题: 我们声称对 float 使用相等测试是不安全的，因为算术运算会引入舍入错误，这意味着两个应该相等的数字实际上并不相等。对于这个程序，您应该选择一个数字 N，并编写一个程序来显示 1
Javascript++ -- 帮助
为什么这个脚本的输出是 5 而不是 8 ？我认为 -- 意味着 -1 两次。 var x = 0; var y = 10; while ( x
vb6 - 帮助 ffmpeg
我现在可以从 cmd 窗口中执行的 FFmpeg 过程中读取最后一行。使用脚本主机模型对象引用此源。 Private Sub Command1_Click() Dim oExec
Excel vlookup 帮助
使用 vlookup，当匹配发生时，我想从匹配发生的同一行显示工作表 2 中 C 列的值。我想出的公式从 C 列表 2 中获取值，但它从公式粘贴在表 3 上的行中获取，而不是从匹配发生的位置获取。这
WCF 跟踪日志分析 - 帮助
我在破译 WCF 跟踪文件时遇到了问题，我希望有人能帮助我确定管道中的哪个位置发生了延迟。 “Processing Message XX”的跟踪如下所示，在事件边界和传输到“Process Actio
带有条件连接查询的 Hibernate 帮助
我有四个表，USER、CONTACT、CONACT_TYPE 和 USER_CONTACT USER_CONTACT 存储用户具有填充虚拟数据的表的所有联系人如下用户表 USER_ID(int)|
php 帮助 - 实例化函数
以下有什么作用？ public static function find_by_sql($sql="") { global $database; $result_set = $data
Javabat 帮助 : alarmClock
我正在解决 JavaBat 问题并且对我的逻辑感到困惑。这是任务: Given a day of the week encoded as 0=Sun, 1=Mon, 2=Tue, ...6=Sat,
Scala "match"帮助
我正在研究一些 Scala 代码，发现这种方法让我感到困惑。在匹配语句中，sublist@ 是什么？构造？它包含什么样的值(value)？当我打印它时，它与 tail 没有区别，但如果我用尾部替换它，
iphone - 缩放图像非常慢 - 帮助
我正在使用以下代码自行缩放图像。代码很好，图像缩放也没有问题。 UIImage *originImg = img; size = newSize; if (originImg.size.width >
iphone - 帮助!仪器无法启动
Instruments 无法在我的 iPad 和 iPhone 上启动。两者都已正确配置，我可以毫无问题地从 xcode 调试它们上的代码，但 Instruments 无法启动。我听到的只是一声嘟嘟
iphone - NSRegularExpression 帮助
我想用 iPhone 的 NSRegularExpression 类解析此文本: Uploaded652.81 GB 用于摘录上传和652.81文本。最佳答案虽然我确实认为 xml 解析器更适合解
下拉过滤器的 Javascript 帮助
我找到了 solution在 Stackoverflow 上，根据过滤器显示 HTML“li”元素(请参阅附件)。本质上基于 HTML 元素中定义的 css 类，它填充您可以从中选择的下拉列表。我想
SQL FOR XML 帮助
这是一个简单的问题，但我是在 SQL 2005 中形成 XML 的新手，但是用于形成如下所示表中的 XML 的最佳 FOR XML SQL 语句是什么？ Column1 Column2 -
Flash 文件比它在网站中的背景声音加载得多!帮助
我在 www.enigmafest.com 有一个网站!您可以尝试打开它!我面临的问题是，在预加载器完成后，主页会出现，但其他菜单仍然需要很长时间才能加载，而且声音也至少需要 5 分钟! :( 我怎样
Haskell Curl 帮助
好吧，我正在尝试用 Haskell 来理解 IO，我想我应该编写一个处理网页的简短小应用程序来完成它。我被绊倒的代码片段是(向 bobince 表示歉意，但公平地说，我并不想在这里解析 HTML，只是
javascript - 谷歌浏览器背景页建议/帮助
如何使用背景页面来突出显示网站上的某个关键字，无论网站是什么(谷歌浏览器扩展)？没有弹出窗口或任何东西，它只是在某人正在查看的网站上编辑关键字。我以前见过这样的，就是不明白怎么做!谢谢你的帮助。最佳
JavaScript 帮助、表格和单选按钮
我是 Javascript 新手，需要一些帮助。先看图片: . 积分预测器应用程序。基本上当用户通过单选按钮选择获胜团队时它应该在积分栏中为获胜队添加 10 分，并且并根据得分高的球队自动对表格进
javascript - 从电子邮件到灯箱 - 帮助!
这是我的情况 - 我要发送一份时事通讯，我试图做的是，当用户单击电子邮件中的链接时，它会重定向到我的网页，然后会弹出一个灯箱，显示视频。我无法在页面加载时触发灯箱，因为您可以在查看灯箱之前转到同一页面
Javascript 帮助，获取输入
我有这个代码。 ¿Cuanto es ? Ir 我想获取用户输入的“验证码”值。我尝试这个但行不通。有什么帮助吗？ var campo = d

首页

博学

6Ren·AI

商城

Python - 多线程帮助 - 读取多个文件 - ETL 到 SQL Server