gpt4 book ai didi

java - 如何在文件列表上运行 UIMA?

转载 作者:行者123 更新时间:2023-11-30 03:31:05 28 4
gpt4 key购买 nike

我在 Java 程序中使用 org.apache.uima.examples.cpe.SimpleRunCPE,它采用 CpeDescription XML 文件作为输入。

此文件有一个用于 InputDirectory 的 nameValuePair,它指向 UIMA 应该处理的文本文件所在的位置。

如何在指定的文件列表上运行 CPE?

背景是我的目录中有大量文本文件可以运行 UIMA 来生成 CAS 文件。如果运行 UIMA 进程几天后突然必须停止(由于堆内存不足而崩溃或必须重新启动计算机),我想仅在剩余的未处理文件上运行该进程。

我该如何继续呢?

最佳答案

在您的 CpeDescription XML 文件中,您需要修改 CollectionReader 以接受新参数(例如文件列表或正则表达式)以过滤掉已处理的文件。 Here some codetests让您开始。

另一个解决方法是将大型 InputDirectory 构建为较小的子目录,并在每个子目录上运行 UIMA CPE。这样,如果某个 CPE 批处理失败,您只需重新启动即可。

关于java - 如何在文件列表上运行 UIMA?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29022154/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com