java - lucene:如何执行增量索引并避免 'delete and redo'-6ren

java - lucene:如何执行增量索引并避免 'delete and redo'

转载作者：塔克拉玛干更新时间：2023-11-01 22:30:22

25

4

我有一个文件夹 (MY_FILES)，其中包含大约 500 个文件，并且每天都会收到一个新文件并将其放置在那里。每个文件的大小约为 4Mb。

我刚刚开发了一个简单的“void main”来测试我是否可以在这些文件中搜索特定的通配符。它工作得很好。

问题是我要删除旧的 indexed_folder 并重新索引。这需要花费大量时间并且显然效率低下。我正在寻找的是“增量索引”。意思是，如果索引已经存在 - 只需将新文件添加到索引中。

我想知道 Lucene 是否有某种机制可以在尝试索引之前检查“doc”是否已被索引。像 writer.isDocExists 这样的东西？

谢谢!

我的代码是这样的:

       // build the writer
       IndexWriter writer;
       IndexWriterConfig indexWriter = new IndexWriterConfig(Version.LUCENE_36, analyzer);
       writer = new IndexWriter(fsDir, indexWriter);
       writer.deleteAll();  //must - otherwise it will return duplicated result 
       //build the docs and add to writer
       File dir = new File(MY_FILES);
       File[] files = dir.listFiles();
       int counter = 0;
       for (File file : files) 
       { 
           String path = file.getCanonicalPath();
           FileReader reader = new FileReader(file);
           Document doc = new Document();  
           doc.add(new Field("filename", file.getName(), Field.Store.YES, Field.Index.ANALYZED));
           doc.add(new Field("path", path, Field.Store.YES, Field.Index.ANALYZED));
           doc.add(new Field("content", reader));  

           writer.addDocument(doc);
           System.out.println("indexing "+file.getName()+" "+ ++counter+"/"+files.length);
       }

最佳答案

首先，您应该使用 IndexWriter.updateDocument(Term, Document) 而不是 IndexWriter.addDocument 来更新文档，这将防止您的索引包含重复条目。

要执行增量索引，您应该将last-modified 时间戳添加到索引的文档中，并且只索引较新的文档。

编辑有关增量索引的更多详细信息

您的文档应该至少有两个字段:

the path of the file

the time stamp when the file has been modified for the last time.

在开始索引之前，只需在您的索引中搜索最新的时间戳，然后爬取您的目录以查找时间戳比索引的最新时间戳更新的所有文件。

这样，每次文件更改时都会更新您的索引。

关于java - lucene:如何执行增量索引并避免 'delete and redo'，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12462652/

25

4

0

文章推荐： java - 如何从另一个maven项目中引用一个maven项目？

文章推荐： java - 如何通过 CLI 客户端获取 jboss 用户列表

文章推荐： Java Executors 和每线程(不是每工作单元)对象？

文章推荐： java - 如何删除java中的停用词？

delphi - 如何实现多次Undo/Redo？
我有一个带有 4 个编辑框和一个备忘录的表单，我正在尝试弄清楚如何实现多个撤消重做，例如 - 因此，如果用户在编辑 3,1,2、备忘录中输入文本，然后编辑 4，我想按反转顺序撤消，并按原始顺序重做。
ios - UIWebView中如何实现undo/redo
我正在开发一个具有富文本编辑器功能的应用程序。在 ZSSRichTextEditor 之上我已经编写了我的编辑器代码。这里我的编辑器是 UIWebView，它将被 javascript 代码注入(in
javascript - SonarQube 显示正则表达式拒绝服务 (ReDoS)
我在 JavaScript 中使用正则表达式验证日期，但是当我运行 SonarQube 进行代码分析时。它将正则表达式显示为安全漏洞。示例 1: 下面是正则表达式模式(链接到正则表达式的来源 htt
regex - 这个正则表达式是否容易受到 REDOS 攻击
正则表达式: ^\d+(\.\d+)*$ 我试图打破它: 1234567890.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.
javascript - 来自 ReDos 攻击的安全正则表达式模式
我最近遇到了一些重做攻击问题。简单步骤讲解 :Regex denial of services :这意味着攻击者可以放置一些恶意/精心设计的输入来使您的服务器无法停止找到正确的模式，从而占用您的整个
c++ - Redo char 未声明但已声明
当我在上面明确声明时，我在 main.cpp 上遇到 redo char(粗体)错误。我还想知道为什么它要求我在 using namespace std 前面放一个分号，因为我以前从未这样做过。 //
java - Java ReDos 易受攻击吗？
我试图重新创建 regular expression denial of service attack using (a+)+ regexp and aaaaaaaaaaaaaaaaaaaaaaaaa
data-structures - (undo-redo) 的最佳数据结构是什么？
Undo/Redo 的最佳数据结构是什么，(ctrl+z , ctrl+y) ?前几天我们老师说栈最适合undo，但是我在想双链表 .. 有没有其他数据结构能以更好的质量达到我们的目的？或这两者之一引
python - 找不到键盘映射 'Windows Proper Redo"
pycharm中出现一条消息缺少键盘映射找不到键盘映射“Windows 正确重做” 我不知道这个消息是什么意思以及如何解决它。请帮忙最佳答案您应该打开 Windows Proper Redo.
mysql - 为什么启用了mysql binlog后还需要innodb redo log？
在我的理解中，mysql binlog 完全可以作为 InnoDB 的重做日志。那么，启用binlog后，为什么InnoDB还要同时写redo log而不是直接切换使用binlog呢？这不会显着降低
regex - W3C 规范建议的电子邮件正则表达式模式是否容易受到 ReDoS 攻击？
这是 W3C HTML spec 建议用于电子邮件验证的正则表达式模式: ^[a-zA-Z0-9.!#$%&'*+\/=?^_`{|}~-]+@[a-zA-Z0-9](?:[a-zA-Z0-9-]{0
python - 为什么QUndoStack.push()会执行QUndoCommand.redo()？
我创建了一个自定义 QPushButton，允许从菜单或 QColorDialog 中选择颜色。由于它是“主题”编辑器的一部分，我还添加了对 QUndoStack 的支持:每次更改自定义按钮的颜色时，
java - lucene:如何执行增量索引并避免 'delete and redo'
我有一个文件夹 (MY_FILES)，其中包含大约 500 个文件，并且每天都会收到一个新文件并将其放置在那里。每个文件的大小约为 4Mb。我刚刚开发了一个简单的“void main”来测试我是否可
node.js - MongoDB ReDOS 测试
我正在阅读有关 ReDOS 的内容。 https://en.wikipedia.org/wiki/ReDoS 如果您在 Node.js 中运行此代码，似乎: console.time('aaa');
Pythonic 相当于 unshift 或 redo？
我正在学习 Python，我遇到了一种情况，我想使用迭代器中的项目。棘手的部分是在某些条件下，我想“取消迭代”。也就是说，在我循环之前将一个项目放回迭代器的前面。例如，假设我正在从树上摘苹果。我的果
MySQL 8.0 redo log的深入解析
前言最开始了解mysql实现的时候，总听到redo log， wal（write-ahead logging），undo log这些关键词，了解到redo log主要是用于实现事务的持久化的。为
OpenLayers DrawFeature undo() 和 redo() 函数
我需要实现 undo和 redo我的应用程序中的功能。我发现最简单的方法(？)是使用 openlayers undo和 redo内置功能。 -> http://dev.openlayers.org/d
objective-c - NSUndoManager:禁用 "redo"进行破坏性操作
我想向我的 Mac 应用程序添加撤消/重做功能。该应用程序可与笔记一起使用，我想在用户删除笔记时添加“撤消”操作。这工作得很好，“撤消删除注释”菜单在用户删除注释后变为事件状态，但是在使用“撤消删除
c++ - Qt Undo/Redo 实现，无法连接到按钮
我也在 Qt 论坛中发布了这个问题，here 我正在尝试在我的应用程序中执行撤消和重做命令。我有一个 QTreeWidget，我想让用户撤消和重做一个操作(例如，更改 QTreeWidget 中 QT
c++ - "redo/undo"函数的问题(mfc、c++)
我试图在我的 mfc 应用程序中创建重做/撤消功能，但是当我试图撤消 CLine 对象时 - 它无法正常工作。我做错了什么？对不起我的英语! void CKonokhovDoc::OnEditUndo

首页

博学

6Ren·AI

商城

java - lucene:如何执行增量索引并避免 'delete and redo'