c# - 分块读取csv文件进行处理-6ren

c# - 分块读取csv文件进行处理

转载作者：行者123 更新时间：2023-12-03 11:11:14

30

4

我有一个 .csv 文件，其中包含 100 000 条记录，其中包含五列。我正在逐行阅读并将其存储在远程数据库中。

以前，我遵循以性能为导向的方法。我正在逐行读取 .csv 文件，在同一个事务中，我正在打开与数据库的连接并关闭它。这需要严重的性能开销。仅仅写 10 000 行，就需要一个小时。

using (FileStream reader = File.OpenRead(@"C:\Data.csv")) 
            using (TextFieldParser parser = new TextFieldParser(reader))
            {
                parser.TrimWhiteSpace = true; // if you want
                parser.Delimiters = new[] { " " };
                parser.HasFieldsEnclosedInQuotes = true;

                while (!parser.EndOfData)
                {
                    //Open a connection to a database 
                    //Write the data from the .csv file line by line
                    //Close the connection
                 }
             }

现在我改变了方法。出于测试目的，我获取了一个包含 10 000 行的 .csv 文件，在读取了所有 10 000 行之后，我正在建立一个与数据库的连接并将其写入那里。

现在，唯一的问题是:我想读取前 10 000 行并写入，类似地读取接下来的 10 000 行并写入，

using (FileStream reader = File.OpenRead(@"C:\Data.csv")) 
                using (TextFieldParser parser = new TextFieldParser(reader))

但是上面两行会读取整个文件。我不想完整地阅读它。有什么方法可以逐 block 读取 .csv 文件，每 block 10 000 行？

最佳答案

试试下面的代码，它从 csv 中逐 block 读取数据

 IEnumerable<DataTable> GetFileData(string sourceFileFullName)
    {            

        int chunkRowCount = 0;

        using (var sr = new StreamReader(sourceFileFullName))
        {
            string line = null;
            //Read and display lines from the file until the end of the file is reached.                
            while ((line = sr.ReadLine()) != null)
            {                                                  
               chunkRowCount++;
               var chunkDataTable = ; ////Code for filling datatable or whatever   

                if (chunkRowCount == 10000)
                {
                    chunkRowCount = 0;
                    yield return chunkDataTable;
                    chunkDataTable = null;
                }
            }
        }
        //return last set of data which less then chunk size
        if (null != chunkDataTable)                           
            yield return chunkDataTable;            
    }

关于c# - 分块读取csv文件进行处理，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31603368/

30

4

0

文章推荐： react-native - react native如何获取WebView对象的html源代码

文章推荐： web-services - 证书问题 403.7

文章推荐： select - odata - 结合 $expand 和 $select

文章推荐： android - 您好Android Sudoku游戏，按下按钮会使游戏崩溃

WCF 分块/流媒体
我正在使用 WCF 并希望将大文件从客户端上传到服务器。我已经调查并决定遵循 http://msdn.microsoft.com/en-us/library/aa717050.aspx 中概述的分块方
http - 传输编码:分块
我试图了解有关 Transfer-Encoding:chunked 的更多信息。引用了一些文章: http://zoompf.com/blog/2012/05/too-chunky和 "Transfe
hdf5 - 分块 HDF5 数据集和slabsize
我们正在评估 HDF5 在分块数据集方面的性能。特别是我们试图弄清楚是否可以跨不同的连续块进行读取以及这样做会如何影响性能？例如。我们有一个块大小为 10 的数据集，一个有 100 个值的数据集，
php - 如何从闭包中终止 Eloquent 分块
使用 Eloquent，如何根据 chunk 中的条件终止分块函数的关闭？我试过返回，但这似乎只终止当前块而不是所有块。此时，我想停止从数据库中检索记录。 $query->chunk(self::CH
javascript - plupload:从头开始重新上传(分块)
有没有办法在不删除所选文件的情况下重新启动 plupload 上传？ plupload.stop() 停止上传，但如果我使用 start() 再次启动上传，它会从上次停止的地方继续。相反，我希望它再次
python - 连接两个大文件而不用 pandas 分块
我有带有“id，名称”的文件1和带有“id，地址”的文件2。我无法加载第一个文件(小于 2Gb):它在 76k 行(带有 block 连接)和只有 2 列后崩溃...我也无法在第二个文件上 read_
javascript - Servlet/Javascript 分块
我正在尝试从头开始设计一个系统，我想在其中通过 servlet 加载文本行。生产线的生产需要一些时间。因此，我希望能够在它们到达时在我的浏览器中逐步显示它们，一次显示几个。我想从 javascript
android - 分块 Web 服务响应
能否请您提供一个示例，说明如何在 Android 中读取来自 Web 服务的分块响应谢谢编辑:我尝试调用一个 soap 网络服务，它用代表图像的 base64 编码字符串回复我代码如下: Str
algorithm - 分块 map 的数据结构
我想制作一个无限平铺 map ，从(-max_int,-max_int)到(max_int,max_int)，所以我要制作一个基本结构: chunk，每个 chunk 包含 char tiles[w]
php - 如果已发送部分响应(分块)，如何将浏览器发送到错误页面
这是一个典型的场景:评估一个页面，并且有一个缓冲区 - 一旦缓冲区已满，评估的页面部分就会发送到浏览器。这使用 HTTP 1.1 分块编码。但是，其中一个 block 中可能会发生错误(在第一个 b
python - 与 nltk 分块
如何从给定模式的句子中获取所有 block 。例子 NP:{} 标记的句子: [("money", "NN"), ("market", "NN") ("fund", "NN")] 如果我解析我得到 (
Python 分块 CSV 文件多处理
我正在使用以下代码将 CSV 文件拆分为多个 block (来自 here) def worker(chunk): print len(chunk) def keyfunc(row):
javascript - Dropzone JS - 分块
我想我已经很接近这个了，我有以下 dropzone 配置: Dropzone.options.myDZ = { chunking: true, chunkSize: 500000, ret
javascript - 分块 WebSocket 传输
因为我在更常规的基础上使用 WebSocket 连接，所以我对事情在幕后的工作方式很感兴趣。因此，我研究了无休止的规范文档一段时间，但到目前为止，我真的找不到任何关于对传输流本身进行分 block 。
go - Go中的 slice 分块
我有一个 slice ，其中包含约 210 万个日志字符串，我想创建一个 slice ，字符串尽可能均匀分布。这是我目前所拥有的: // logs is a slice with ~2.1 mill
python - 大型 NumPy 数组的成对距离(分块？)
问题: 我有一个大约为 [350000, 1] 的向量，我希望计算成对距离。这导致 [350000, 350000] 整数数据类型的矩阵不适合 RAM。我最终想得到一个 bool 值(适合 RAM)，
jquery - JSONP 和 jQuery 分块
我想将 JSONP 用于具有 x 域脚本编写的项目，但不太关心 IE 中的 2048 个字符限制。如果字符大小超过 2048，JSONP 是否自动支持“分块”？如果是的话，有人可以分享一些例子吗？
java - Libgdx 分块 map 碰撞检测
我目前正在开发 2d 角色扮演游戏，例如《最终幻想 1-4》。基本上，我的平铺 map 可以加载， Sprite 可以在 map 上自由行走。如何处理与平铺 map 的碰撞？我创建了三个独立的图
python - 使用 Python-Treetaggerwrapper 分块
Treetagger 可以进行词性标记和文本分块，这意味着提取口头和名词性从句，如这个德语示例所示: $ echo 'Das ist ein Test.' | cmd/tagger-chunker-g
android - 带有改造 2 的流媒体服务器 - 分块
我应该从服务器流式传输端点，该端点返回带有传输编码的 json:分块。我有以下代码，但无法读取响应。我尝试了 responseBody.streamBytes() 并将输入流转换为字符串，但我不能在

首页

博学

6Ren·AI

商城

c# - 分块读取csv文件进行处理