gpt4 book ai didi

c# - 处理非常大的数据集并及时加载

转载 作者:太空狗 更新时间:2023-10-29 17:48:43 27 4
gpt4 key购买 nike

我有一个用 C# (.NET 4.0) 编写的 .NET 应用程序。在此应用程序中,我们必须从文件中读取大型数据集并将内容显示在类似网格的结构中。因此,为了实现这一点,我在窗体上放置了一个 DataGridView。它有 3 列,所有列数据都来自文件。最初,该文件有大约 600.000 条记录,对应于 DataGridView 中的 600.000 行。

我很快发现,DataGridView 在如此大的数据集下崩溃了,所以我不得不切换到虚拟模式。为此,我首先将文件完全读入 3 个不同的数组(对应 3 列),然后触发 CellValueNeeded 事件,我从数组中提供正确的值。

但是,正如我们很快发现的那样,此文件中可能有大量(大量!)记录。当记录非常大时,将所有数据读入数组或 List<> 等似乎不可行。我们很快就会遇到内存分配错误。 (内存不足异常)。

我们被困在那里,但后来意识到,为什么首先将数据全部读入数组,为什么不在 CellValueNeeded 事件触发时按需读取文件?这就是我们现在要做的:我们打开文件,但不读取任何内容,当 CellValueNeeded 事件触发时,我们首先将 Seek() 定位到文件中的正确位置,然后读取相应的数据。

这是我们能想出的最好的办法,但是,首先这很慢,这使得应用程序运行缓慢且对用户不友好。其次,我们不禁认为必须有更好的方法来实现这一点。例如,一些二进制编辑器(如 HXD)对于任何文件大小都快得令人眼花缭乱,所以我想知道如何实现这一点。

哦,为了增加我们的问题,在 DataGridView 的虚拟模式下,当我们将 RowCount 设置为文件中的可用行数(比如 16.000.000)时,DataGridView 甚至需要一段时间才能初始化本身。对于此“问题”的任何评论也将不胜感激。

谢谢

最佳答案

如果您不能将整个数据集放入内存,那么您需要一个缓冲方案。而不是只读取填充 DataGridView 所需的数据量回应CellValueNeeded ,您的应用程序应该预测用户的操作并提前阅读。因此,例如,当程序首次启动时,它应该读取前 10,000 条记录(或者可能只有 1,000 条或 100,000 条 - 无论您的情况如何)。然后,CellValueNeeded可以立即从内存中填充请求。

当用户在网格中移动时,您的程序会尽可能领先于用户一步。如果用户跳到您前面(例如,想从前面跳到最后),您可能会出现短暂的停顿,而您必须转到磁盘才能完成请求。

这种缓冲通常最好由一个单独的线程来完成,尽管同步有时可能会成为一个问题,如果线程正在预读用户的下一个 Action ,然后用户做了一些完全出乎意料的事情,比如跳转到列表。

1600 万条记录并不是要保存在内存中的所有记录,除非记录非常大。或者如果您的服务器上没有太多内存。当然,1600 万远不及 List<T> 的最大大小。 , 除非 T是一个值类型(结构)。您在这里谈论的是多少千兆字节的数据?

关于c# - 处理非常大的数据集并及时加载,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4807048/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com