mysql - 当行的值为 'x' 时，跳过 MySQL LOAD DATA INFILE 语句中的行-6ren

mysql - 当行的值为 'x' 时，跳过 MySQL LOAD DATA INFILE 语句中的行

转载作者：行者123 更新时间：2023-11-29 09:03:21

24

4

背景:我有一个固定宽度的平面文件，其中包含大约 9400 万行数据。该文件来自 HCUP 全国住院样本 (NIS http://www.hcup-us.ahrq.gov/nisoverview.jsp )，它提供了过去 12 年的住院信息，每行一个单独的住院情况。为了进行分析，我将查询诊断代码 (ICD9-CM) 来识别具有各种诊断的患者。

固定宽度文件包含最多 15 个诊断代码的信息，这些代码作为列 dx1 到 dx15 提供。

create table `core` (`key` char (14),
`dx1` char (5),
`dx10` char (5),
`dx11` char (5),
`dx12` char (5),
`dx13` char (5),
`dx14` char (5),
`dx15` char (5),
`dx19` char (5),
`dx2` char (5),
`dx3` char (5),
`dx4` char (5),
`dx5` char (5),
`dx6` char (5),
`dx7` char (5),
`dx8` char (5),
`dx9` char (5),
plus various other columns of patient demographics...);

我将所有数据加载到名为 core 的 MySQL 表中，并且可以对 15 列建立索引。但是，将 dx* 列标准化为单独的 dx 表似乎是有利的，例如；

create table `dx` (
`key` char (14),
`icd9` char (5),
);

其中key是主core表的外键。为了将数据快速加载到 dx 中，我使用:

LOAD DATA LOCAL INFILE 'data.ASC' INTO TABLE `dx` (@var1) SET `key` = substr(@var1, 1, 14), `icd9` = substr(@var1, 74, 5);
LOAD DATA LOCAL INFILE 'data.ASC' INTO TABLE `dx` (@var1) SET `key` = substr(@var1, 1, 14), `icd9` = substr(@var1, 79, 5);
LOAD DATA LOCAL INFILE 'data.ASC' INTO TABLE `dx` (@var1) SET `key` = substr(@var1, 1, 14), `icd9` = substr(@var1, 84, 5);
etc for all 15 columns...

问题是固定宽度文件中的每一行中位数只有 3 个诊断代码，因此大多数 dx* 列都是空白(' ' [五个空白字符] )。因此，虽然 dx 表在加载数据后有 14.1 亿 (9400 万 * 15) 行，但大约 12.8 亿 (9400 万 * 12) 行是空白诊断代码。

我只是在索引之前删除它们并进行优化:

DELETE FROM `dx` WHERE `icd9` = "     ";
OPTIMIZE TABLE `dx`;
CREATE INDEX `icd9` ON `dx` (`icd9`);

但是，这需要很多时间。

问题:如果 ICD9 = ' '[五个空白字符]，是否可以修改 LOAD DATA INFILE 语句以跳过该行，这会比我当前的 DELETE 和 OPTIMIZE 方法快得多吗？如果有的话，我想将此信息传递给 future 使用这些数据的研究人员。

最佳答案

Is it possible to modify the LOAD DATA INFILE statement to skip the row if

没有。有一个IGNORE选项。但是它使用行号而不是内联逻辑比较。

would this be significantly faster than my current DELETE and OPTIMIZE method

有可能。但是，因为这不是一个选项，所以没关系。

关于mysql - 当行的值为 'x' 时，跳过 MySQL LOAD DATA INFILE 语句中的行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7880818/

24

4

0

文章推荐： php - 删除数据库cakephp中的一条记录

文章推荐： PHP - MySQL 到 SimpleXML，确保正确的编码

文章推荐： php - 使用 Mysql 和 PHP 构建动态网站

java - 跳过 M 个元素并从 LinkedList 中删除 N 个元素，跳过 0 引发问题
我的算法- private static MyList skip$DeleteItem(MyList L , int M , int N){ MyList curr = L; MyLi
prolog - 跳过/通过非标准序言代码
我正在 SWI-Prolog 下开发，但我的目标是 Erlog (https://github.com/rvirding/erlog)。我需要一种使用非标准 Prolog 语法的方法。有没有办法
loops - 如何批量创建循环/跳过
我正在尝试从应用程序下载一大堆文件。它的shell命令是“下载文件名”。我有一个文本文件，其中包含必须下载的所有文件名。我要做的就是运行一个脚本/命令，以便在执行上述命令时 1.从文本文件中提取文件
javascript - 跳过 if 语句和循环中未定义的值
我试图循环遍历所有用户的评论，但使用 if 语句查找特定值。问题是我的应用程序崩溃了，因为一些用户没有发表评论，因此我得到“无法读取‘收集’未定义的属性”。如何跳过 if 语句的未定义值？代码如下:
跳过 Elasticsearch 分区索引与匹配无文档查询
我们有按年份分区的索引，例如: items-2019 items-2020 考虑以下数据: POST items-2019/_doc { "@timestamp": "2019-01-01" }
javascript - 跳过 For 循环中的某些数字
我只是编写一个页面来按实体编号查看每个 ASCII 条目，我想知道是否有一种更简单/更干净的方法来跳过不需要的数字。 var x = new Ar
组织模式重复 TODO 跳过
我希望能够普遍使用重复条目，但也能够跳过特定日期。例子: ** TODO swim practice SCHEDULED 但是，我提前知道 2013-12-25 不会有练习。但是，当我将项目标
java - 跳过 for 循环中的一次迭代
如何跳过像这样的 for 循环的一次迭代: for (int i = 65; i <= 90; i++) { if (!(i == 73)) { uniq.add((char) i);
java - 跳过 while 循环的第一行
这个问题已经存在: Scanner issue when using nextLine after nextXXX [duplicate] 已关闭 9 年前。 ask=1; while(ask==1)
java - 跳过 while 语句
我在使用一个程序时遇到了一些麻烦，我应该允许用户在程序中输入任意数量的数字，直到他们不再想要为止。然后程序应该计算输入数字的平均值和最大值。我哪里做错了？ import java.util.Scann
arrays - 跳过 “for each”循环中的第一个元素？
我有一个名为segments的 Sprite 数组，我想在每个循环中跳过segments的第一个元素。我目前正在这样做: var first = true; for each (var segment
java - 跳过 for 循环的某些迭代
我目前正在编写一个 for 循环来遍历包含 38 个元素的 2D。然而，其中一些元素为空，我希望 for 循环简单地跳过它们(因为在我正在解决的难题中，它们没有与它们相关的移动)。快速搜索表明，我可以
跳过 Python 预提交单元测试
我想使用pre-commit处理我的 git 项目的 git hooks。但是，当我使用它时，git commit 命令不断跳过 unittest 执行: (smartexchange) trnboo
c - fgets() 跳过
这个问题在这里已经有了答案: Does scanf() take '\n' as input leftover from previous scanf()? (1 个回答) 关闭 9 年前。我正在
python - 跳过 for 循环中的错误行
我正在迭代 csv 文件中的每一行，并仅选择/计算满足条件的行。但是，当连续出现错误时，它会停止循环。有没有办法告诉 python 跳过错误并移动到下一行？我使用了 try 函数但没有工作。我的代码是
跳过 Scala 模式匹配案例
感谢您提供的优秀示例，我试过了，它按我的预期工作。很高兴看到有人了解问题的本质。但是，我认为我应该用 Lift 标记问题，因为我正在使用 Lift 框架，这就是(仍然)发生这个问题的地方(尽管我仍然认
javascript - 跳过 do/while 循环
大家好，我正在编写一个算法来从 NodeTree 中删除具体分支(例如 DSF)。如果您选择 Node 的名称，算法将检查该 Node 是否是其他 Node 的父 Node ；如果是，它会获取该 No
c - 跳过 for 循环的一次迭代
附有代码和输出。基本上它是第二次跳过我的输入。就像我启动代码一样，它让我输入一个选项，然后第二次跳过输入，直接转到开关的默认情况。然后第三次它就会允许我输入。不明白为什么。任何帮助将不胜感激。
Javascript 跳过 For 循环中的间隔
我在 JavaScript 中有一个 for 循环，它会定期跳过间隔，但我无法确定原因。 console.log(parseInt($('input.num-to-add').val())); num
java - 跳过 for 循环中的元素并重新分配它
我正在 JasperSoft 中填写参数。在我的报告中我有参数:参数_1、参数_2、参数_3 int a; for (a = 0; a < headers.length; a++) {

首页

博学

6Ren·AI

商城

mysql - 当行的值为 'x' 时，跳过 MySQL LOAD DATA INFILE 语句中的行