- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我有一个大约 2GB 的巨大文本文件,我试图用 C# 解析它。该文件具有行和列的自定义分隔符。我想解析文件并提取数据并通过插入列标题并将 RowDelimiter 替换为换行符并将 ColumnDelimiter 替换为制表符来写入另一个文件,以便我可以获得表格格式的数据。
示例数据:
1'~'2'~'3#####11'~'12'~'13
行分隔符:#####
ColumnDelimiter: '~'
我不断在下一行得到 System.OutOfMemoryException
while ((line = rdr.ReadLine()) != null)
public void ParseFile(string inputfile,string outputfile,string header)
{
using (StreamReader rdr = new StreamReader(inputfile))
{
string line;
while ((line = rdr.ReadLine()) != null)
{
using (StreamWriter sw = new StreamWriter(outputfile))
{
//Write the Header row
sw.Write(header);
//parse the file
string[] rows = line.Split(new string[] { ParserConstants.RowSeparator },
StringSplitOptions.None);
foreach (string row in rows)
{
string[] columns = row.Split(new string[] {ParserConstants.ColumnSeparator},
StringSplitOptions.None);
foreach (string column in columns)
{
sw.Write(column + "\\t");
}
sw.Write(ParserConstants.NewlineCharacter);
Console.WriteLine();
}
}
Console.WriteLine("File Parsing completed");
}
}
}
最佳答案
正如评论中已经提到的,您将无法使用 ReadLine
来处理此问题,您基本上必须一次处理一个字节或一个字符的数据。好消息是,这基本上就是 ReadLine
的工作方式,所以在这种情况下我们不会损失太多。
使用 StreamReader
我们可以从源流(以您需要的任何编码)读取一系列字符到一个数组中。使用它和 StringBuilder
,我们可以分块处理流并在途中检查分隔符序列。
这是一个处理任意定界符的方法:
public static IEnumerable<string> ReadDelimitedRows(StreamReader reader, string delimiter)
{
char[] delimChars = delimiter.ToArray();
int matchCount = 0;
char[] buffer = new char[512];
int rc = 0;
StringBuilder sb = new StringBuilder();
while ((rc = reader.Read(buffer, 0, buffer.Length)) > 0)
{
for (int i = 0; i < rc; i++)
{
char c = buffer[i];
if (c == delimChars[matchCount])
{
if (++matchCount >= delimChars.Length)
{
// found full row delimiter
yield return sb.ToString();
sb.Clear();
matchCount = 0;
}
}
else
{
if (matchCount > 0)
{
// append previously matched portion of the delimiter
sb.Append(delimChars.Take(matchCount));
matchCount = 0;
}
sb.Append(c);
}
}
}
// return the last row if found
if (sb.Length > 0)
yield return sb.ToString();
}
这应该可以处理您的部分块分隔符可能出现在实际数据中的任何情况。
为了将您的文件从您描述的输入格式转换为简单的制表符分隔格式,您可以按照以下几行做一些事情:
const string RowDelimiter = "#####";
const string ColumnDelimiter = "'~'";
using (var reader = new StreamReader(inputFilename))
using (var writer = new StreamWriter(File.Create(ouputFilename)))
{
foreach (var row in ReadDelimitedRows(reader, RowDelimiter))
{
writer.Write(row.Replace(ColumnDelimiter, "\t"));
}
}
这应该处理得相当快而不会占用太多内存。非 ASCII 输出可能需要进行一些调整。
关于c# - 使用自定义分隔符解析一个巨大的文本文件(大约 2GB),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47804688/
我需要围绕半径大约为 X 米的点 (lon,lat) 创建一个圆。 该点是通过等效于 geomFromEwkt('SRID=1;POINT(lon lat)') 生成的。 我知道 postgis 的缓
代码实现了读取文件(包含大量url)的功能,每个url都通过“evhttp_uri_parse”获取主机和路径。但是有一个错误,evhttp_uri_parse解析失败,返回NULL。可能原因是堆栈溢
所以我有两个进程,一个客户端进程,一个服务器进程。用户可以向客户端发出命令,当用户输入命令时客户端会将命令长度发送给服务器,之后再发送实际的命令。 服务器首先发回响应的长度,然后发送回响应。 我可以执
我从enwiki-latest-pagelinks.sql.gz下载了dumps.wikimedia.org/enwiki/latest/转储。 我开始将表导入到mysql数据库中: mysql -D
我有一个带有 Jw 音频播放器的 php 页面,并且有大约 5500 个链接,在每个链接的 onclick 事件上都附加了一个 javascript 函数。 php 正在生成文件的确切相对路径和名称,
我有一个大约 2GB 的巨大文本文件,我试图用 C# 解析它。该文件具有行和列的自定义分隔符。我想解析文件并提取数据并通过插入列标题并将 RowDelimiter 替换为换行符并将 ColumnDel
我已经建立了几个网站,出于某种原因,当我“喜欢”一篇博客文章或喜欢这个网站时,它们都不会再贴到我的墙上了。 (使用 iframe)示例: http://madhatterulti.com/ http:
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
我有一个与 LongPoll 一起工作的服务,当我收到我的数据时一切正常,但是当我没有收到数据时,我收到的是空结果(长轮询最大时间 == 25 秒)我的服务有时会关闭手动(我没有在服务列表中看到它)。
对于用于 Android 和应用内购买的最佳支付 API 是否达成共识? 在谷歌上搜索“Android 支付 api”,有大量来自 paypal、sms 和信用卡公司等的点击。但其中大部分文章已有多年
我的查询执行时间很长,大约 120 秒。 任何人都可以帮我重写这个查询。 请参阅下面的解释计划和表格结构。 我们经常在慢日志中收到此查询。 查询: select count(*) as col_
我正在尝试找到一种方法来对墓 map 像进行近似分割(在文化科学中的 CBIR 背景下 - 但这不是主题)。到目前为止,我正在使用这个策略: 模糊图像两次(实验结果) 应用 Canny 边缘检测器 寻
当您在 Google 中搜索时(我几乎可以肯定 Altavista 做了同样的事情),它会显示“关于 xxxx 的结果 1-10”... 这一直让我感到惊讶......“关于”是什么意思? 他们怎么能
今天我们的一台 Linux 服务器在打开出站请求时遇到问题。我已经查看了这个答案,Increasing the maximum number of tcp/ip connections in linu
我在 MVC4 站点中使用 NuGet 的最新 SignalR。使用sample hub code (或任何代码),我遇到一些奇怪的连接问题。一切加载正常,SignalR 进行协商调用并记录“Even
有人可以帮帮我吗?我的 GUI 有问题。这会过快地接收过多数据,以至于事件处理程序会完全阻塞 GUI 以供用户输入。 后台程序用于向 GUI 发送解决方案(作为文本),但 GUI 处理数据的速度不够快
假设我有一段代码,例如 for (j = 0; j 180) { c.fillStyle = 'red' } c.fi
我正在创建 2 名玩家的游戏,每个玩家都有自己的区域。我希望每个玩家都可以用一根手指触摸自己的区域。所以首先我将“达阵”功能限制为“2 个指针”。 public boolean touchDown(i
进程运行卡在 32000 (± 5%) 左右 ~# cat/proc/sys/kernel/threads-max127862 ~# ulimit -s堆栈大小(千字节,-s)2048 可用内存:3,
我有一个问题。我的应用程序在某些 Android 设备(Android 版本 5 到 6)的后台运行(如前台服务)。应用程序连接到服务器(TCP 连接)并且它们至少每 45 秒交换一次数据。 如果屏幕
我是一名优秀的程序员,十分优秀!