gpt4 book ai didi

java - UIMA 用于结构化数据

转载 作者:行者123 更新时间:2023-11-30 03:46:04 25 4
gpt4 key购买 nike

我是 UIMA 新手...

我想连接到数据库,提取数据并使用 UIMA 正则表达式注释器对其进行处理,然后写回数据库。

示例:
表:emp

Name       Department      EmpId  
AB-C Sale's 2134[3]
XYZ, Fina&nce 23423
PQ#R Marketing 234(47

使用 UIMA 正则表达式注释器进行转换

期望的输出

Name       Department      EmpId  
ABC Sales 21343
XYZ Finance 23423
PQR Marketing 23447

我已经安装了UIMA、ECLIPSE和相关的JDBC驱动程序来连接数据库。

提前致谢

最佳答案

有几种方法可以实现这一目标。

最简单(不太可扩展)的方法是编写 3 个类(使用 uimaFIT http://uima.apache.org/uimafit.html#Documentation 使编码更容易):

集合阅读器: - 读入对象中的所有数据 - 迭代对象并从每个对象创建 JCAS,您可以将主键存储在注释中。

分析引擎: - 使用 UIMA 正则表达式注释器来操作 JCAS 的文档文本

消费者: - 读取JCAS文档文本并使用主键更新数据库

更好的方法是通过创建连接到数据库的外部资源( http://uima.apache.org/d/uimafit-current/tools.uimafit.book.html#ugr.tools.uimafit.externalresources )来抽象读写操作(提供 hasNext() 和 next() 方法 - 这对于在 CollectionReader 中使用非常方便和消费者)。这样做的优点是可以隔离所有初始化逻辑。使用 UIMAFit 时,您可以使用配置参数注入(inject) ( http://uima.apache.org/d/uimafit-current/tools.uimafit.book.html#ugr.tools.uimafit.configurationparameters ),例如使连接字符串和搜索查询可配置。

使用 uimaFIT 中的 SimplePipeline 类来运行管道:http://uima.apache.org/d/uimafit-current/tools.uimafit.book.html#ugr.tools.uimafit.pipelines

关于java - UIMA 用于结构化数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25662683/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com