gpt4 book ai didi

mysql - 将 100 亿行导入 mysql

转载 作者:搜寻专家 更新时间:2023-10-30 20:06:19 26 4
gpt4 key购买 nike

我有一个包含 100 亿行的 .csv 文件。我想检查每一行是否都是唯一的。是否有捷径可寻?我在想也许导入到 mysql 可以让我快速找出唯一性。我如何将这个巨大的文件上传到mysql?我已经尝试过逐行插入语句以及“LOAD DATA INFILE”命令,但都失败了。

谢谢

最佳答案

我不会为此目的使用数据库,除非它最终需要在数据库中结束。假设您对每一行都有相同的格式(这样您就没有“8.230”和“8.23”,或者在等值行的开头/结尾有额外的空格),请使用一些 textutils包含在大多数 POSIX 环境(Linux、Mac OS X)中,或通过 GnuWIn32 coreutils 适用于 Windows .

这是从您的系统 shell 执行的步骤顺序。首先,对文件进行排序(这一步是必须的):

sort ten.csv > ten_sorted.csv

然后从排序的数据中找到唯一的行:

uniq ten_sorted.csv > ten_uniq.csv

现在您可以查看最终文件中有多少行:

wc ten_uniq.csv

或者您可以只使用管道将三个步骤组合到一个命令行中:

sort ten.csv | uniq | wc

关于mysql - 将 100 亿行导入 mysql,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5735447/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com