- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 Perl 脚本从 xml 文件(包含超过十亿行)填充 MySQL 中的表以查找感兴趣的行。该脚本运行非常顺利,直到第 15M 行,但之后它开始呈指数增长。就像第一个 1000000 行一样,它需要大约 12 秒的时间来解析并将其写入数据库,但在 1500 万行之后,解析和写入相同数量的行所需的时间约为 43 秒。
我按照建议将 innodb_buffer_pool_size 从 128M 增加到 1024M
Insertion speed slowdown as the table grows in mysql answered by Eric Holmberg
时间要求分别下降到 ~7 秒和 ~32 秒,但它仍然很慢,因为我有一个巨大的文件要处理,而且它的时间要求不断增加。
我还删除了任何 Primary key
和 Index
的创建,认为它可能会导致一些问题(虽然不确定)
下面是代码片段:
$dbh = DBI->connect('dbi:mysql:dbname','user','password') or die "Connection Error: $DBI::errstr\n";
$stmt = "DROP TABLE IF EXISTS dbname";
$sth = $dbh->do($stmt);
$sql = "create table db(id INTEGER not null, type_entry VARCHAR(30) not null, entry VARCHAR(50))";
$sth = $dbh->prepare($sql);
$sth->execute or die "SQL Error: $DBI::errstr\n";
open my $fh1, '<', "file.xml" or die $!;
while (<$fh1>)
{
if ($_=~ m/some pattern/g)
{
$_=~ s/some pattern//gi;
$id = $_;
}
elsif ($_=~ m/some other pattern/)
{
$_=~ s/\s|(\some other pattern//gi;
$type = $_;
}
elsif ($_=~ m/still some other pattern/)
{
$_=~ s/still some other pattern//gi;
$entry = $_;
}
if($id ne "" && $type ne "" && $entry ne "")
{
$dbh->do('INSERT INTO dbname (id, type_entry, species) VALUES (?, ?, ?)', undef, $id, $type, $entry);
}
}
该数据库将包含大约 170 万个条目。还可以做些什么来减少时间?
提前致谢
谢谢大家的帮助从早上开始,我一直在努力执行所有被告知的事情,并检查我是否在时间上有明显的减少。所以我做了什么:
hash
(正如@ikegami 所说)LOAD DATA LOCAL INFILE
(如@ikegami、@ysth 和@ThisSuitIsBlackNot 所述)。但是我已经将它嵌入到我的代码中以占用文件然后将其处理到数据库。这里的文件由脚本动态写入,当它达到 1000 个条目时,它被写入数据库。连续1000000行的运行时间是
13 秒
11 秒
24 秒
22 秒
35 秒
34 秒
47 秒
45 秒
58 秒
57 秒 .....
(想发布图片,但......声誉)
我检查了时间并跟踪了脚本将其写入数据库所需的时间;令我惊讶的是它是线性的。现在我从这里得出的结论是,while 循环存在一些问题,我认为它会以指数方式增加时间,因为它必须在每次迭代时转到行号,并且当它深入到文件时,它必须计算更多的数字到达下一行的行数。
对此的任何评论
$start_time = time();
$line=0;
open my $fh1, '<', "file.xml" or die $!;
while (<$fh1>)
{
$line++;
%values;
if ($_=~ s/foo//gi)
{
$values{'id'} = $_;
}
elsif ($_=~ s/foo//gi)
{
$values{'type'} = $_;
}
elsif ($_=~ s/foo//gi)
{
$values{'pattern'} = $_;
}
if (keys(%values) == 3)
{
$no_lines++;
open FILE, ">>temp.txt" or die $!;
print FILE "$values{'id'}\t$values{'type'}\t$values{'pattern'}\n";
close FILE;
if ($no_lines == 1000)
{
#write it to database using `LOAD DATA LOCAL INFILE` and unlink the temp.txt file
}
undef %values;
}
if($line == ($line1+1000000))
{
$line1=$line;
$read_time = time();
$processing_time = $read_time - $start_time - $processing_time;
print "xml file parsed till line $line, time taken $processing_time sec\n";
}
}
首先,很抱歉这么久才回复;当我再次从 root 到 top 开始使用 Perl 时,这一次使用 use strict
变得很清楚,这帮助我保持了线性时间。在处理大型 Xml 文件时,使用 XML 解析器
也是一件好事。
补充一点,MySQL 的插入速度没有任何关系,它始终是线性的
感谢大家的帮助和建议
最佳答案
我猜瓶颈是实际的插入。生成 INSERT
语句,将它们放在一个文件中,然后使用 mysql
命令行工具执行该文件肯定会更快一些。
您可以尝试创建插入大量行的 INSERT
语句,而不是单个语句。
或者最好完全避免 INSERT
语句。我认为 mysql
命令行工具具有从 CSV 文件填充数据库的功能。这可能会产生更多的速度。
更好的是,如果您有权访问托管数据库的机器的文件系统,则可以使用LOAD DATA INFILE
。
您的 Perl 代码也可以进行一些清理。
您对每个模式都搜索了两次?变化
if (/foo/) { s/foo//gi; $id = $_ }
到
if (s/foo//gi) { $id = $_ }
实际上,您是否需要替换?这可能会更快
if (/foo (.*)/) { $id = $1 }
看起来您可以按照以下方式做更多的事情
my ($k, $v) = split(/:\s*/);
$row{$k} = $v;
而不是那个巨大的 if
。
此外,如果您使用散列,则可以使用以下内容进行最后检查:
if (keys(%row) == 3)
关于mysql - 使用 Perl 脚本为非常大的文件 (60GB) 提高在 MySQL 中插入表的速度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28215533/
目前我正在构建相当大的网络系统,我需要强大的 SQL 数据库解决方案。我选择 Mysql 而不是 Postgres,因为一些任务需要只读(MyISAM 引擎)而其他任务需要大量写入(InnoDB)。
我在 mysql 中使用如下命令。当它显示表格数据时,它被格式化为一个非常干净的表格,间距均匀且 |作为列分隔符。 SELECT * FROM TABLE_NAME; 当我从 CLI 运行命令时,如下
我知道这个问题之前已经被问过好几次了,我已经解决了很多问题,但到目前为止没有任何效果。 MySQL 试图将自身安装到的目录 (usr/local/mysql) 肯定有问题。关于我的错误的奇怪之处在于我
以下是我的 SQL 数据结构,我正在尝试如下两个查询: Select Wrk_ID, Wrk_LastName, Skill_Desc from Worker, Skill where
我们有一个本地 mysql 服务器(不在公共(public)域上),并希望将该服务器复制到我们拥有的 google 云 sql 实例。我的问题是:1.这可能吗?2.我们的本地服务器只能在本地网络上访问
我有一个表(test_table),其中一些字段值(例如字段 A、B 和 C)是从外部应用程序插入的,还有一个字段(字段 D),我想从现有表(store_table)插入其值,但在插入前者(A、B 和
我想创建一个 AWS RDS 实例,然后使用 terraform 管理数据库用户。因此,首先,我创建了一个 RDS 实例,然后使用创建的 RDS 实例初始化 mysql 提供程序,以进一步将其用于用户
当用户在我的网站上注册时,他们会在我的一个数据库中创建自己的表格。该表存储用户发布的所有帖子。我还想做的是也为他们生成自己的 MySql 用户——该用户仅有权从他们的表中读取、写入和删除。 创建它应该
我有一个关于 ColdFusion 和 Mysql 的问题。我有两个表:PRODUCT 和 PRODUCT_CAT。我想列出包含一些标记为:IS_EXTRANET=1 的特殊产品的类别。所以我写了这个
我想获取 recipes_id 列的值,以获取包含 ingredient_id 的 2,17 和 26 条目的值。 假设 ingredient_id 2 丢失则不获取记录。 我已经尝试过 IN 运算符
在 Ubuntu 中,我通常安装两者,但 MySQL 的客户端和服务器之间有什么区别。 作为奖励,当一个新语句提到它需要 MySQL 5.x 时,它是指客户端、服务器还是两者兼而有之。例如这个链接ht
我重新访问了我的数据库并注意到我有一些 INT 类型的主键。 这还不够独特,所以我想我会有一个指导。 我来自微软 sql 背景,在 ssms 中你可以 选择类型为“uniqeidentifier”并自
我的系统上有 MySQL,我正在尝试确定它是 Oracle MySQL 还是 MySQL。 Oracle MySQL 有区别吗: http://www.oracle.com/us/products/m
我是在生产 MySQL 中运行的应用程序的新维护者。之前的维护者已经离开,留下的文档很少,而且联系不上了。 我面临的问题是执行以下请求大约需要 10 秒: SELECT COUNT(*) FROM `
我有两个位于不同机器上的 MySQL 数据库。我想自动将数据从一台服务器传输到另一台服务器。比方说,我希望每天早上 4:00 进行数据传输。 可以吗?是否有任何 MySQL 内置功能可以让我们做到这一
有什么方法可以使用 jdbc 查询位于 mysql 根目录之外的目录中的 mysql 表,还是必须将它们移动到 mysql 根目录内的数据库文件夹中?我在 Google 上搜索时没有找到任何东西。 最
我在 mysql 数据库中有两个表。成员和 ClassNumbers。两个表都有一个付费年份字段,都有一个代码字段。我想用代码数字表中的值更新成员表中的付费年份,其中成员中的代码与 ClassNumb
情况:我有 2 台服务器,其中一台当前托管一个实时 WordPress 站点,我希望能够将该站点转移到另一台服务器,以防第一台服务器出现故障。传输源文件很容易;传输数据库是我需要弄清楚如何做的。两台服
Phpmyadmin 有一个功能是“复制数据库到”..有没有mysql查询来写这个函数?类似于将 db A 复制到新的 db B。 最佳答案 首先创建复制数据库: CREATE DATABASE du
我有一个使用 mySQL 作为后端的库存软件。我已经在我的计算机上对其进行了测试,并且运行良好。 当我在计算机上安装我的软件时,我必须执行以下步骤: 安装 mySQL 服务器 将用户名指定为“root
我是一名优秀的程序员,十分优秀!