- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的公司每个月都会收到一组包含银行帐户信息的 CSV 文件,我需要将其导入数据库。其中一些文件可能非常大。例如,一篇约33MB,约65,000行。
现在我有一个 symfony/Doctrine 应用程序 (PHP),它可以读取这些 CSV 文件并将它们导入数据库。我的数据库有大约 35 个不同的表,在导入过程中,我将这些行分成组成对象并将它们插入到数据库中。这一切都运行得很好,只是速度慢(每行大约需要四分之一秒)并且占用大量内存。
内存使用率太低,我不得不拆分 CSV 文件。一个 20,000 行的文件勉强能放进去。当它接近尾声时,我的内存使用率约为 95%。导入 65,000 行文件根本不可能。
我发现 symfony 是构建应用程序的一个特殊框架,我通常不会考虑使用其他任何东西,但在这种情况下,我愿意以性能的名义把我所有的先入之见抛到九霄云外。我不致力于任何特定的语言、DBMS 或任何东西。
Stack Overflow 不喜欢主观问题,因此我将尝试使其尽可能不主观:对于那些不仅有意见而且有导入大型 CSV 文件的经验的人来说,您过去使用过哪些成功的工具/实践?
例如,您是否只使用 Django 的 ORM/OOP 而没有遇到任何问题?或者您是否将整个 CSV 文件读入内存并准备一些巨大的 INSERT
语句?
再说一次,我想要的不仅仅是意见,而是过去对您实际有效的东西。
编辑:我不仅仅是将 85 列 CSV 电子表格导入到一个 85 列数据库表中。我正在规范数据并将其放入数十个不同的表中。因此,我不能只使用 LOAD DATA INFILE(我使用的是 MySQL)或任何其他仅读取 CSV 文件的 DBMS 功能。
此外,我无法使用任何 Microsoft 特定的解决方案。
最佳答案
如果我没有完全正确理解您的问题,请原谅我,但您似乎只是想将大量 CSV 数据导入 SQL 数据库。您是否有任何理由想要使用 Web 应用程序或其他代码将 CSV 数据处理到 INSERT 语句中?我已成功使用 SQL Server Management Studio 和 BULK INSERT 语句将大量 CSV 数据导入 SQL Server Express(免费版)。一个简单的批量插入看起来像这样:
BULK INSERT [Company].[Transactions]
FROM "C:\Bank Files\TransactionLog.csv"
WITH
(
FIELDTERMINATOR = '|',
ROWTERMINATOR = '\n',
MAXERRORS = 0,
DATAFILETYPE = 'widechar',
KEEPIDENTITY
)
GO
关于csv - 导入大型 CSV 文件的最佳实践,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4166506/
本文分享自华为云社区《大模型LLM之分布式训练》,作者: 码上开花_Lancer。 随着语言模型参数量和所需训练数据量的急速增长,单个机器上有限的资源已无法满足大语言模型训练的要求。需要设计分布式训
本文分享自华为云社区《五大基础算法--动态规划法》,作者: 大金(内蒙的)。 一、基本概念 动态规划法,和分治法极其相似。区别就是,在求解子问题时,会保存该子问题的解,后面的子问题求解时,可以直接拿来
pip install scp pip install pexpect 测试代码: import os import stat import paramiko # 用于调用scp命令 def s
我目前正在实现“ token ”REST 服务。 token 只是一个字符串,由一些参数构建而成,然后经过哈希处理并在一定时间后过期。 我想在我的 REST 服务中有一个可以验证 token 的端点,
打开软删除后,我在客户端上添加一条记录,推送,删除添加的记录推送,然后尝试使用与初始记录相同的主键添加新记录(然后推送),我得到一个异常(exception)。 EntityDomainManager
打开软删除后,我在客户端上添加一条记录,推送,删除添加的记录推送,然后尝试使用与初始记录相同的主键添加新记录(然后推送),我得到一个异常(exception)。 EntityDomainManager
我有一个应用程序,每 x 秒接收一次天气信息。我想将此数据保存到 XML 文件中。 我应该为每个天气通知创建一个新的 XML 文件,还是将每个通知附加到同一个 XML 文件中?我不确定 XML 标准的
我猜我们大多数人都必须在某个时候处理这个问题,所以我想我会问这个问题。 当您的 BLL 中有很多集合并且您发现自己一遍又一遍地编写相同的旧内联(匿名)谓词时,显然有必要进行封装,但实现封装的最佳方
我有一些 c# 代码已经运行了一段时间了..我不得不说,虽然我了解 OO 原则的基础知识,但显然有不止一种方法可以给猫剥皮(尽管我讨厌那个短语!)。 因此,我有一个基本抽象类作为基本数据服务类,如下所
我设计了一个 SQL 数据库系统(使用 Postgre),我有一个问题,即创建一个关系/引用的常见做法是什么,这种关系/引用即使在引用的对象被删除时也能持续存在。 比如有一个UserORM,还有Act
我们的目标是搜索用户输入的字符串并计算在其中找到多少元音。不幸的是我被困在这里,有什么帮助吗? def numVowels(s): vowels= "AEIOUaeiou" if s
我有一个适用于我的“items”int 数组的旋转函数。下面的代码完成了它,除了我不必要地传输值。我正在努力实现“就地”轮换。我的意思是 ptrs 会递增或递减,而不是从数组中获取值。我需要通过这种方
我有一个 json 存储在我的应用程序文档文件夹中,我需要在我的所有 View 中使用它。我正在加载 json 并将其添加到每个 View 中的 NSMutableArray。但现在我了解到,我可以将
我用 C++ 开始了一个项目。这种语言的内存管理对我来说是新的。 我过去常常使用 new () 创建对象,然后传递指针,虽然它可以工作,但调试起来很痛苦,人们看到代码时会用有趣的眼神看着我。我为它没有
已结束。 这个问题是 off-topic .它目前不接受答案。 想要改进这个问题? Update the question所以它是on-topic堆栈溢出。 关闭 10 年前。 Improve thi
保持类松散耦合是编写易于理解、修改和调试的代码的一个重要方面——我明白这一点。然而,作为一个新手,几乎任何时候我都会超越我所苦苦挣扎的最简单的例子。 我或多或少地了解如何将字符串、整数和简单数据类型封
我发现我需要编写大量重复代码,因为我无法从其他 Controller 调用函数。例如,这里新闻提要内容在我的代码中重复,我对一个 Controller 做一些特定的事情,然后需要像这样加载我的新闻提要
假设需要一种数字数据类型,其允许值在指定范围内。更具体地说,假设要定义一个整数类型,其最小值为0,最大值为5000。这种情况在很多情况下都会出现,例如在对数据库数据类型,XSD数据类型进行建模时。 在
假设我想循环整个数组来访问每个元素。使用 for 循环、for...in 循环或 for...of 循环是 JavaScript 开发人员的标准做法吗? 例如: var myArray = ["app
我有一个旧的 SL4/ria 应用程序,我希望用 Breeze 取代它。我有一个关于内存使用和缓存的问题。我的应用程序加载工作列表(一个典型的用户可以访问大约 1,000 个这些工作)。此外,还有很多
我是一名优秀的程序员,十分优秀!