python - 如何加快此文件创建过程？-6ren

python - 如何加快此文件创建过程？

转载作者：行者123 更新时间：2023-12-01 07:57:16

27

4

我正在尝试创建一个具有固定宽度列的大型平面文件，其中包含多个层，但处理似乎非常慢，很可能是因为我正在迭代每一行。就上下文而言，这是为了传输保单信息。

层次结构如下:

-Policy row
--Property on policy
---Coverage on property
--Property on policy
---Coverage on property
--Owner on policy
--Owner on policy
--Owner on policy

目前，我正在将四种记录类型加载到单独的数据帧中，然后根据父记录的 ID 拉取它们，对每种类型执行 for 循环，然后将它们写入文件。我希望有某种分层数据帧合并，这样不会强制我每次想要记录时都扫描文件。

import re
import pandas as pd
import math


def MakeNumeric(instring):
    output = re.sub('[^0-9]', '', str(instring))
    return str(output)

def Pad(instring, padchar, length, align):
    if instring is None:  # Takes care of NULL values
        instring = ''
    instring = str(instring).upper()
    instring = instring.replace(',', '').replace('\n', '').replace('\r', '')
    instring = instring[:length]
    if align == 'L':
        output = instring + (padchar * (length - len(instring)))
    elif align == 'R':
        output = (padchar * (length - len(instring))) + instring
    else:
        output = instring
    return output

def FileCreation():
    POLR = pd.read_parquet(r'POLR.parquet')
    PRP1 = pd.read_parquet(r'PRP1.parquet')
    PROP = pd.read_parquet(r'PROP.parquet')
    SUBJ = pd.read_parquet(r'SUBJ.parquet')
    rownum = 1
    totalrownum = 1
    POLRCt = 0
    size = 900000
    POLR = [POLR.loc[i:i + size - 1, :] for i in range(0, len(POLR), size)]
    FileCt = 0
    print('Predicted File Count: ' + str(math.ceil(len(POLR[0])/ size)) )
    for df in POLR:
        FileCt += 1
        filename = r'OutputFile.' + Pad(FileCt, '0', 2, 'R')
        with open(filename, 'a+') as outfile:
            for i, row in df.iterrows():
                row[0] = Pad(rownum, '0', 9, 'R')
                row[1] = Pad(row[1], ' ', 4, 'L')
                row[2] = Pad(row[2], '0', 5, 'R')
                # I do this for all 50 columns
                outfile.write((','.join(row[:51])).replace(',', '') + '\n')
                rownum += 1
                totalrownum += 1
                for i2, row2 in PROP[PROP.ID == row[51]].iterrows():
                    row2[0] = Pad(rownum, '0', 9, 'R')
                    row2[1] = Pad(row2[1], ' ', 4, 'L')
                    row2[2] = Pad(row2[2], '0', 5, 'R')
                    # I do this for all 105 columns
                    outfile.write((','.join(row2[:106])).replace(',', '') + '\n')
                    rownum += 1
                    totalrownum += 1
                    for i3, row3 in PRP1[(PRP1['id'] == row2['ID']) & (PRP1['VNum'] == row2['vnum'])].iterrows():
                        row3[0] = Pad(rownum, '0', 9, 'R')
                        row3[1] = Pad(row3[1], ' ', 4, 'L')
                        row3[2] = Pad(row3[2], '0', 5, 'R')
                        # I do this for all 72 columns
                        outfile.write((','.join(row3[:73])).replace(',', '') + '\n')
                        rownum += 1
                        totalrownum += 1
                for i2, row2 in SUBJ[SUBJ['id'] == row['id']].iterrows():
                    row2[0] = Pad(rownum, '0', 9, 'R')
                    row2[1] = Pad(row2[1], ' ', 4, 'L')
                    row2[2] = Pad(row2[2], '0', 5, 'R')
                    # I do this for all 24 columns
                    outfile.write((','.join(row2[:25])).replace(',', '') + '\n')
                    rownum += 1
                    totalrownum += 1
                POLRCt += 1
                print('File {} of {} '.format(str(FileCt),str(len(POLR)) ) + str((POLRCt - 1) / len(df.index) * 100) + '% Finished\r')
            rownum += 1
        rownum = 1
        POLRCt = 1

我本质上是在寻找一个不需要花费多天时间来创建 27M 记录文件的脚本。

最佳答案

我最终为每个记录级别填充临时表，并创建键，然后将它们插入到永久临时表中，并为键分配聚集索引。然后，我在使用 OFFSET 和 FETCH NEXT %d ROWS ONLY 来减少内存大小时查询结果。然后，我使用多处理库来分解 CPU 上每个线程的工作负载。最终，这些因素的结合将运行时间减少到了最初发布此问题时的 20% 左右。

关于python - 如何加快此文件创建过程？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55907611/

27

4

0

文章推荐： python - 没有名为 Pillow 的模块

文章推荐： python - 我可以生成 Open API 3 Python Flask 服务器吗？

fortran - 在 PURE 过程 Fortran 中调用类型绑定(bind)过程
如果我声明了类似的类型 type test(NSIZE) integer, len :: NSIZE real :: dummy(NSIZE) contains procedure,
vba - 从 Excel 应用程序隐藏 VBA 过程，但不从其他项目隐藏 VBA 过程
我知道这是一个不太可能的事情，但是由于“选项私有(private)模块”的限制，甚至更糟糕的“私有(private)子/函数”的限制，有谁知道是否有一种方法可以从 Excel 应用程序隐藏 VBA 过
SQL 过程 - 根据其他表的计数更改表列的值
我有两个表，property 和 component。 component.id_property = property.id。我正在尝试创建一个过程，该过程对所选属性的组件进行计数，如果所选属性没
在一行中返回结果的 SQL 过程
我有一份报告，它是在 SSRS 2005 中开发的，我正在使用存储过程从数据库中获取结果。报告输出的结果非常简单，如下图所示。如果假设我正在寻找不同的成员例如:- MemberID c108 c
delphi - 衰落值常规功能/过程
我需要一个通用函数/过程，该函数/过程将根据提供的数据计算出我的淡入淡出时间和值，如下所示：我将字节值保存在字节数组中：这些是起始值。然后，我在其他数组中存储了一些值：这些将是新值。然后我有时间要提
java - 如何在java中为多个按钮设置相同的操作/过程
我想在界面的多个按钮上创建相同的操作。是否只能通过创建单独的操作监听器方法并调用执行操作的方法才可行，还是还有其他方法？是否可以将按钮放在一个组中并执行以下操作:- groupButton.setOn
delphi - 跳转到finally而不退出函数/过程
我有以下情况: procedure Test; begin repeat TryAgain := FALSE; try // Code // Code if this an
Oracle 向一个对象类型添加一个新的成员函数/过程
我正在尝试执行以下操作；假设我在 Oracle 中创建了一个对象类型 create type test as object( name varchar2(12), member procedure p
VHDL - 适用于任何类型数组的函数/过程
问题: 如果可能的话，如何声明一个用于任何类型参数的函数 T其中 T 的唯一约束是它被定义为 1D array如 type T is array ( integer range <> ) of a_r
包含一整年的天数和小时数的 Mysql 过程
我正在尝试创建这个 mysql 过程来制作一个包含今年所有日期和所有时间的表(以一小时为间隔。) CREATE TABLE FECHAS ( created_at datetime ); CREA
带有预选光标数据的 MySQL 过程
所以，我在这里面临一个问题，这让我发疯，我认为这是一个愚蠢的错误，所以我不是 MySQL 的新手，但它并不像我想象的那样工作。尝试将此语句部署到 MySQL 后，我收到此错误: ERROR 106
带参数语法的 MySQL 过程
我有一个架构，其中包含星球大战中的人物列表、他们出现的电影、他们访问的行星等。这是架构: CREATE DATABASE IF NOT EXISTS `starwarsFINAL` /*!40100
具有多个计数和分组依据的 MySql 过程
我一直在为一家慈善机构创建一款应用程序，允许家庭在节日期间注册接收礼物。数据库组织有多个表。下面列出了这些表(及其架构/创建语句): CREATE TABLE IF NOT EXISTS ValidD
mysql - 按日期删除表而不删除系统表的函数/过程
正如上面标题所解释的，我正在尝试编写一个sql函数来按日期删除表而不删除系统表。我在此消息下方放置了一张图片，以便直观地解释我的问题。任何帮助将不胜感激!感谢您的时间! 最佳答案您可以通过查询INF
使用游标的 mysql 过程
DELIMITER $$ CREATE PROCEDURE INSERT_NONE_HISTORY_CHECKBOX() BEGIN DECLARE note_id bigint(20); F
postgresql 过程/触发器
是否可以编写一个存储过程或触发器，在特定时间在数据库内部自动执行，而无需来自应用程序的任何调用？如果是，那么任何人都可以给我一个例子或链接到一些我可以阅读如何做到这一点的资源。最佳答案查看 pgA
mysql 过程 - 在第二个查询中使用结果并重新格式化日期
我需要创建一个过程:1)从表中的字段中选择一些文本并将其存储在变量中2) 更新相同的记录字段，仅添加 yyyymmdd 格式的日期以及过程中的附加文本输入...类似这样的... delimiter /
MySQL 过程 - 如果不存在则插入行
好的，这就是我想做的: 如果条目已存在(例如基于字段name)，则只需返回其id 如果没有，请添加这是我迄今为止所管理的(对于“如果不存在，则创建它”部分): INSERT INTO `object
MySQL 过程 - 开始工作
以下是我编写的程序，用于找出每位客户每天购买的前 10 件商品。这是我尝试过的第一个 PL/SQL 操作。它没有达到我预期的效果。我使用的逻辑是接受开始日期、结束日期以及我对每个客户感兴趣的前“x
mysql - 列不能为空 - 过程
我正在尝试在MySQL中创建一个过程那insert week s(当年)发送至我的 week table 。但存在一个问题，因为在为下一行添加第一行后，我收到错误: number column can

首页

博学

6Ren·AI

商城

python - 如何加快此文件创建过程？