gpt4 book ai didi

java - 执行者服务中的执行者服务?

转载 作者:行者123 更新时间:2023-12-01 13:01:29 26 4
gpt4 key购买 nike

在文档导入方法中,我处理大量文件。每个文件大小也可以100mb-200mb。我想异步使用线程。在for循环中,每个文件都会被处理然后被索引(lucene)。这种操作在实时情况下非常耗费成本和时间。整体运作不能停止。

导入方法的总体结构如下:

public void docImport()
{
ExecutorService executor = Executors.newFixedThreadPool(5);
for(final File file : fileList)
{
//Do some works...
executor.execute(new Runnable() {
@Override
public void run() {
zipFile(file); //Each zipped file has diff name and same directory.
indexFile(file); //Each file is indexed same directory.
}
});
}
executor.shutdown();
}

indexFile方法的一般结构:

public void indexFile()
{
ExecutorService executor = Executors.newFixedThreadPool(1);
IndexWriter writer = null;
Directory dir = .....;
Analyzer analyzer = new StandardAnalyzer(LUCENE_VERSION);
IndexWriterConfig iwc = new IndexWriterConfig(LUCENE_VERSION, analyzer);
iwc.setRAMBufferSizeMB(200);
iwc.setOpenMode(IndexWriterConfig.OpenMode.CREATE_OR_APPEND);
writer = new IndexWriter(dir, iwc);
Document lucenedoc = new Document();
lucenedoc.add(..);

if (writer.getConfig().getOpenMode() == IndexWriterConfig.OpenMode.CREATE) {
writer.addDocument(lucenedoc);
} else {
writer.updateDocument(new Term(PATH, innerPath), lucenedoc);
}
executor.shutdown();
}

我的问题是:

当 docImport 方法工作时,5 个线程读取文件,每个线程都尝试将文件索引到同一个 lucene 索引文件。所以错误发生了一些间隔:“org.apache.lucene.store.LockObtainFailedException:锁定获取超时:NativeFSLock@C:\lucene\index\write.lock”

例如,有时 100 个文件中会索引 30 个文件。其他内容因错误而未编入索引。

如何解决此错误?我该如何处理这个问题?

最佳答案

当索引上已经有一个打开的写入器时,当您尝试打开 IndexWriter 时,您会收到此错误。

除了这个问题之外,打开一个新的 IndexWriter 是一个非常昂贵的操作。即使您要让它工作(例如同步打开、使用然后关闭 IndexWriter 的 block ),这可能会非常慢。

相反,打开一个 IndexWriter,保持打开状态,并在每个线程之间共享它。

关于java - 执行者服务中的执行者服务?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23483150/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com