gpt4 book ai didi

java - 如何利用以下 ECM 技术 - 比较

转载 作者:行者123 更新时间:2023-11-29 09:22:50 27 4
gpt4 key购买 nike

我有一个理论问题。我有大量各种格式的文档(ODS、MS office、pdf、html),我想实现 ECM 系统,它不是文档管理系统,而是保留元数据和文档数据(多种语言)的系统以统一的方式 (xhtml) 进入文件系统和数据库(仅元数据)并进行数据处理(索引、搜索)。

您将使用哪些技术以及如何进行?这些是我的选择:

仅使用 Apache Tika - 解析这些文档并将元数据和数据提取为 xhtml 格式,然后使用 Lucene 或 Solr 进行索引和全文(最大的缺点是数据库持久性 - 元数据变化很大)

仅将 Apache Solr 与 Tika 结合使用 parsers - 我没有这方面的经验。它是否支持像 Apache Nutch 这样的数据库集成?

然后是 Apache UIMA 项目——很难找出幕后发生的事情

使用一些已经在使用 Apache Tika(露天、apache jackrabbit)的 CMS - 但我对它们没有太多经验。无论如何,我确信他们已经解决了 Apache Tika 本身没有处理的问题,例如(doc 与 docx 或不同的元数据类型)。

在我从 Apache Tika 获得 xhtml 格式后,我也可以使用像 eXist db 这样的原生 XML 数据库,但我不确定这是一个好的选择,因为这些文档的结构相当扁平。 XML 数据库用于更多层次的文档持久性。

最佳答案

如果您需要一个“开箱即用”的解决方案,您可以考虑使用像 Camel 这样的集成框架,并建立一个 camel 路由来从文件中提取实体(使用 tika)并通过 jdbc 将它们迁移到您的数据库中。否则,这听起来像是一个典型的数据挖掘任务,从原始源数据开始,以提取的实体结束。

关于java - 如何利用以下 ECM 技术 - 比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5136699/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com