gpt4 book ai didi

mysql - 在 oracle 中插入 pandas dataframe 非常慢

转载 作者:可可西里 更新时间:2023-11-01 07:34:18 25 4
gpt4 key购买 nike

我正在处理 pandas 数据帧。我的应用程序的目标是对 csv 文件执行某些分析,完成后,将此 csv 文件插入 oracle 数据库。

为了插入 oracle 数据库,我使用了 pandas 库的 to_sql 命令。但是要插入 300,000 行,我的代码大约需要 2 小时 10 分钟。然而,当我使用 MySQL 数据库进行相同的分析和相同大小的输入数据时,只用了 90 秒。

我在 lubuntu VM 中执行所有操作。作为引用,您可以在下面找到相关代码。

data_frame.to_sql(name='RSA_DATA', con=get_engine(), if_exists='append',
index=False, chunksize=config.CHUNK_SIZE)
input_data_list = get_rsa_object_list(data_frame)

我对这两种情况使用了相同的 CHUNK_SIZE(设置为 500)。

有人可以建议这可能是什么原因吗?我该如何解决这个问题?我无法将我的数据库系统从 oracle 更改为任何其他数据库。我使用 MySQL 只是为了确保问题不在于我的代码。

提前致谢。

以下是 Oracle 数据库的 CREATE TABLE 命令:

  CREATE TABLE "CRISDEV"."RSA_DATA" 
( "GENE_SYMBOL" VARCHAR2(50 BYTE),
"GENEID" NUMBER,
"CRISPR" VARCHAR2(75 BYTE),
"RSASCORE" NUMBER,
"LOGP" NUMBER,
"BEST_ACTIVITY" NUMBER,
"RSA_HIT" NUMBER,
"HIT_PER_GENE" NUMBER,
"TOTAL_CRISPRS" NUMBER,
"RSA_RANK" NUMBER,
"SAMPLE_NAME" VARCHAR2(10 BYTE),
"FOLD_CHANGE" NUMBER,
"EXPERIMENT_NUM" NUMBER,
"CELL_LINE" VARCHAR2(75 BYTE),
"CRISPR_LIB" VARCHAR2(75 BYTE),
"CRISPR_LOT" VARCHAR2(25 BYTE),
"CAS9_VENDOR" VARCHAR2(50 BYTE),
"CAS9_LOT" VARCHAR2(25 BYTE),
"CRISPR_INFECT_DATE" DATE,
"CAS9_INFECT_DATE" DATE,
"CAS9_MOI" NUMBER,
"FTE" VARCHAR2(50 BYTE),
"SAMPLE_NAME_LONG" VARCHAR2(150 BYTE),
"INDICATION" VARCHAR2(100 BYTE),
"LOW_CRISPR_COUNT" NUMBER DEFAULT 0,
"MODIFICATION" VARCHAR2(20 BYTE),
"TIMEPOINT" VARCHAR2(10 BYTE)
) SEGMENT CREATION IMMEDIATE
PCTFREE 10 PCTUSED 40 INITRANS 1 MAXTRANS 255
NOCOMPRESS LOGGING
STORAGE(INITIAL 65536 NEXT 1048576 MINEXTENTS 1 MAXEXTENTS 2147483645
PCTINCREASE 0 FREELISTS 1 FREELIST GROUPS 1
BUFFER_POOL DEFAULT FLASH_CACHE DEFAULT CELL_FLASH_CACHE DEFAULT)
TABLESPACE "CRISDEV_DATA" ;

CREATE INDEX "CRISDEV"."C20150312_RSA_CELLLINE" ON "CRISDEV"."RSA_DATA" ("CELL_LINE")
PCTFREE 10 INITRANS 2 MAXTRANS 255 COMPUTE STATISTICS
STORAGE(INITIAL 65536 NEXT 1048576 MINEXTENTS 1 MAXEXTENTS 2147483645
PCTINCREASE 0 FREELISTS 1 FREELIST GROUPS 1
BUFFER_POOL DEFAULT FLASH_CACHE DEFAULT CELL_FLASH_CACHE DEFAULT)
TABLESPACE "CRISDEV_IDX" ;

CREATE INDEX "CRISDEV"."C20150312_RSA_CRISPRLIB" ON "CRISDEV"."RSA_DATA" ("CRISPR_LIB")
PCTFREE 10 INITRANS 2 MAXTRANS 255 COMPUTE STATISTICS
STORAGE(INITIAL 65536 NEXT 1048576 MINEXTENTS 1 MAXEXTENTS 2147483645
PCTINCREASE 0 FREELISTS 1 FREELIST GROUPS 1
BUFFER_POOL DEFAULT FLASH_CACHE DEFAULT CELL_FLASH_CACHE DEFAULT)
TABLESPACE "CRISDEV_IDX" ;

CREATE INDEX "CRISDEV"."C20150312_RSA_GENEID" ON "CRISDEV"."RSA_DATA" ("GENEID")
PCTFREE 10 INITRANS 2 MAXTRANS 255 COMPUTE STATISTICS
STORAGE(INITIAL 65536 NEXT 1048576 MINEXTENTS 1 MAXEXTENTS 2147483645
PCTINCREASE 0 FREELISTS 1 FREELIST GROUPS 1
BUFFER_POOL DEFAULT FLASH_CACHE DEFAULT CELL_FLASH_CACHE DEFAULT)
TABLESPACE "CRISDEV_IDX" ;

CREATE INDEX "CRISDEV"."C20150312_RSA_GENESYMBOL" ON "CRISDEV"."RSA_DATA" ("GENE_SYMBOL")
PCTFREE 10 INITRANS 2 MAXTRANS 255 COMPUTE STATISTICS
STORAGE(INITIAL 65536 NEXT 1048576 MINEXTENTS 1 MAXEXTENTS 2147483645
PCTINCREASE 0 FREELISTS 1 FREELIST GROUPS 1
BUFFER_POOL DEFAULT FLASH_CACHE DEFAULT CELL_FLASH_CACHE DEFAULT)
TABLESPACE "CRISDEV_IDX" ;

CREATE INDEX "CRISDEV"."C20150312_RSA_SAMPLELONG" ON "CRISDEV"."RSA_DATA" ("SAMPLE_NAME_LONG")
PCTFREE 10 INITRANS 2 MAXTRANS 255 COMPUTE STATISTICS
STORAGE(INITIAL 65536 NEXT 1048576 MINEXTENTS 1 MAXEXTENTS 2147483645
PCTINCREASE 0 FREELISTS 1 FREELIST GROUPS 1
BUFFER_POOL DEFAULT FLASH_CACHE DEFAULT CELL_FLASH_CACHE DEFAULT)
TABLESPACE "CRISDEV_IDX" ;

CREATE INDEX "CRISDEV"."C20150312_RSA_SAMPLENAME" ON "CRISDEV"."RSA_DATA" ("SAMPLE_NAME")
PCTFREE 10 INITRANS 2 MAXTRANS 255 COMPUTE STATISTICS
STORAGE(INITIAL 65536 NEXT 1048576 MINEXTENTS 1 MAXEXTENTS 2147483645
PCTINCREASE 0 FREELISTS 1 FREELIST GROUPS 1
BUFFER_POOL DEFAULT FLASH_CACHE DEFAULT CELL_FLASH_CACHE DEFAULT)
TABLESPACE "CRISDEV_IDX" ;

CREATE TABLE MySQL 命令如下:

CREATE TABLE `RSA_DATA` (
`GENE_SYMBOL` varchar(50) DEFAULT NULL,
`GENEID` int(11) DEFAULT NULL,
`CRISPR` varchar(75) DEFAULT NULL,
`RSASCORE` float DEFAULT NULL,
`LOGP` float DEFAULT NULL,
`BEST_ACTIVITY` float DEFAULT NULL,
`RSA_HIT` int(11) DEFAULT NULL,
`HIT_PER_GENE` int(11) DEFAULT NULL,
`TOTAL_CRISPRS` int(11) DEFAULT NULL,
`RSA_RANK` int(11) DEFAULT NULL,
`SAMPLE_NAME` varchar(10) DEFAULT NULL,
`FOLD_CHANGE` int(11) DEFAULT NULL,
`EXPERIMENT_NUM` int(11) DEFAULT NULL,
`CELL_LINE` varchar(75) DEFAULT NULL,
`CRISPR_LIB` varchar(75) DEFAULT NULL,
`CRISPR_LOT` varchar(25) DEFAULT NULL,
`CAS9_VENDOR` varchar(50) DEFAULT NULL,
`CAS9_LOT` varchar(25) DEFAULT NULL,
`CRISPR_INFECT_DATE` date DEFAULT NULL,
`CAS9_INFECT_DATE` date DEFAULT NULL,
`CAS9_MOI` int(11) DEFAULT NULL,
`FTE` varchar(50) DEFAULT NULL,
`SAMPLE_NAME_LONG` varchar(150) DEFAULT NULL,
`INDICATION` varchar(100) DEFAULT NULL,
`LOW_CRISPR_COUNT` int(11) DEFAULT NULL,
`MODIFICATION` varchar(20) DEFAULT NULL,
`TIMEPOINT` varchar(10) DEFAULT NULL
);

最佳答案

对您的问题的几点评论:

  1. 你可能想尝试不同的chunksize
  2. Oracle/ExaData 端有 6 个索引,这当然会使其变慢
  3. 检查您的 ExaData 在此加载操作期间是否正忙/重载以执行其他操作
  4. 您可以尝试将数据加载到临时表中,然后将其复制到目标表中。如果您没有 [data guard/standby/streams/golden gate] - 您可能还想使用直接加载(无日志记录):insert/*+APPEND*/into ...
  5. 我会分析此加载期间的等待事件(在 Oracle 端),以了解您最多花在哪些地方

关于mysql - 在 oracle 中插入 pandas dataframe 非常慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39578373/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com