gpt4 book ai didi

.net - Lucene.NET - 索引单个大于 1GB 的大文件

转载 作者:行者123 更新时间:2023-12-02 00:23:45 24 4
gpt4 key购买 nike

我有一个要使用 Lucene.NET 编制索引的 XML 文件。该文件基本上是一大堆日志。由于单个文件本身超过 5GB,并且我正在具有 2GB RAM 的系统上开发代码,因此当我不解析文件时如何执行索引,也没有创建除包含文件的“文本”以外的任何其他字段数据?

我正在使用来自 CodeClimber 的一些代码目前不确定索引如此大的单个文件的最佳方法是什么。

有没有办法将文件数据以 block 的形式传递给索引?下面是基本上创建文本字段和相关文件数据的代码行

Document doc = new Document();
doc.Add(new Field("Body", text, Field.Store.YES, Field.Index.TOKENIZED));
writer.AddDocument(doc);

谢谢指导

最佳答案

您应该使用类似 System.Xml.XmlReader 的东西,它不会将整个 xml 加载到内存中。但是将整个 xml 索引为单个文档没有意义,因为每次搜索都会得到 1 个或 0 个文档。(找到或未找到)。因此,能够以 block 的形式传递数据对您没有太大帮助。因此,在读取您的 xml 文件时,您应该将其拆分为多个文档(和字段),以便您在搜索时可以获得一些合理的结果。

how can I perform the indexing when I am not parsing the file nor am I creating any other fields other than "text" which shall contain the file data

那会是一个多么美好的世界

关于.net - Lucene.NET - 索引单个大于 1GB 的大文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9767733/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com