gpt4 book ai didi

c# - 在 C# 中处理非常大的 XML 文件

转载 作者:数据小太阳 更新时间:2023-10-29 01:46:34 24 4
gpt4 key购买 nike

我有一个 2.8GB 的​​非常大的 XML 文件。这是波兰维基百科的文章转储。这个文件的大小对我来说是个大问题。任务是搜索此文件以获取大量数据。我所拥有的只是文章的标题。我想我可以对这些标题进行排序,并在整个文件中使用一个线性循环。想法还不错,但是文章没有按字母顺序排序。它们按 ID 排序,我不知道 a priori

因此,我的第二个想法是为该文件创建一个索引。以下列格式存储在其他文件(或数据库)行中:title;id;index(可能没有 ID)。我的另一个问题是我寻求帮助。假设是,如果我有所需标签的索引,我可以只使用简单的 Seek 方法在文件中移动光标,而无需读取所有内容等。对于较小的文件,我认为这可以正常工作。但是在我的电脑(笔记本电脑、C2D proc、Win7、VS2008)上,我收到应用程序没有响应的错误。

在我的程序中,我从文件中读取每一行并检查它是否包含我需要的标记。我也在计算我读取的所有字节并以上述格式保存行。因此,当索引程序挂起时。但到目前为止,结果索引文件为 36.2MB,最后一个索引为 2,872,765,202 (B),而整个 XML 文件的长度为 3,085,439,630 B。

我的第三个想法是将文件拆分成更小的部分。准确地说是 26 个部分(拉丁语有 26 个字母),每个部分仅包含以相同字母开头的条目,例如在 a.xml 中,标题以“A”字母开头的所有条目。最终文件可能有数十 MB,我认为最大约为 200 MB。但是读取整个文件也有同样的问题。

要读取文件,我使用的可能是最快的方法:使用 StreamReader。我在某处读到,System.Xml 中的 StreamReaderXmlReader 类是最快的方法。 StreamReaderXmlReader 更快。很明显,我无法将所有这些文件加载​​到内存中。我只安装了 3GB 的 RAM,而 Win7 满载时大约需要 800MB-1GB。

所以我寻求帮助。做什么最好。关键是搜索这个 XML 文件必须很快。必须比下载 HTML 格式的单个维基百科页面更快。我什至不确定这是否可能。

也许将所有需要的内容加载到数据库中?也许那样会更快?但我仍然需要至少阅读整个文件一次。

我不确定 1 个问题的长度是否有一些限制,但我也会在这里放一个我的索引源代码示例。

while (reading)
{
if (!reader.EndOfStream)
{
line = reader.ReadLine();
fileIndex += enc.GetByteCount(line) + 2; //+2 - to cover characters \r\n not included into line
position = 0;
}
else
{
reading = false;
continue;
}

if (currentArea == Area.nothing) //nothing interesting at the moment
{
//search for position of <title> tag
position = MoveAfter("&lt;title>", line, position); //searches until it finds &lt;title> tag
if (position >= 0) currentArea = Area.title;
else continue;
}

(...)

if (currentArea == Area.text)
{
position = MoveAfter("&lt;text", line, position);
if (position >= 0)
{
long index = fileIndex;
index -= line.Length;
WriteIndex(currentTitle, currentId, index);
currentArea = Area.nothing;
}
else continue;
}
}

reader.Close();
reader.Dispose();
writer.Close();
}

private void WriteIndex(string title, string id, long index)
{
writer.WriteLine(title + ";" + id + ";" + index.ToString());
}

提前致以最诚挚的问候和感谢,

文图斯

编辑:链接到此 Wiki 的转储 http://download.wikimedia.org/plwiki/20100629/

最佳答案

嗯....如果你要搜索它,我强烈建议你找到一个比处理文件本身更好的方法。正如您提到的那样,我建议将其放入规范化和索引良好的数据库中并在那里进行搜索。您所做的任何其他事情都将有效地准确复制数据库的功能。

然而,这样做需要时间。 XmlTextReader可能是你最好的选择,它一次只工作一个节点。 LINQ to XML 也应该是一个相当有效的处理,但我还没有用大文件尝试过,所以不能发表评论。

请问:这个庞大的XML文件是从哪里来的?也许有一种方法可以从源头上处理这种情况,而不是在必须处理一个 3 GB 的文件之前。

关于c# - 在 C# 中处理非常大的 XML 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3337953/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com