- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个理论问题。我有大量各种格式的文档(ODS、MS office、pdf、html),我想实现 ECM 系统,它不是文档管理系统,而是保留元数据和文档数据(多种语言)的系统以统一的方式 (xhtml) 进入文件系统和数据库(仅元数据)并进行数据处理(索引、搜索)。
您将使用哪些技术以及如何进行?这些是我的选择:
仅使用 Apache Tika - 解析这些文档并将元数据和数据提取为 xhtml 格式,然后使用 Lucene 或 Solr 进行索引和全文(最大的缺点是数据库持久性 - 元数据变化很大)
仅将 Apache Solr 与 Tika 结合使用 parsers - 我没有这方面的经验。它是否支持像 Apache Nutch 这样的数据库集成?
然后是 Apache UIMA 项目——很难找出幕后发生的事情
使用一些已经在使用 Apache Tika(露天、apache jackrabbit)的 CMS - 但我对它们没有太多经验。无论如何,我确信他们已经解决了 Apache Tika 本身没有处理的问题,例如(doc 与 docx 或不同的元数据类型)。
在我从 Apache Tika 获得 xhtml 格式后,我也可以使用像 eXist db 这样的原生 XML 数据库,但我不确定这是一个好的选择,因为这些文档的结构相当扁平。 XML 数据库用于更多层次的文档持久性。
最佳答案
如果您需要一个“开箱即用”的解决方案,您可以考虑使用像 Camel 这样的集成框架,并建立一个 camel 路由来从文件中提取实体(使用 tika)并通过 jdbc 将它们迁移到您的数据库中。否则,这听起来像是一个典型的数据挖掘任务,从原始源数据开始,以提取的实体结束。
关于java - 如何利用以下 ECM 技术 - 比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5136699/
我有 ECM NewsLetter,其中包含指向站点(另一个项目)的一些链接。当我通过单击发送按钮将此时事通讯发送到我的电子邮件时 - 当我从电子邮件收件箱中单击它们时,链接不起作用。它显示 404
我们公司决定从SharePoint文档库转移到企业内容管理(ECM)的OpenText LiveLink。我们面临以下问题: 当前,SharePoint中有成千上万的彼此引用的文档。当我们将它们移至新
我在一家大型组织工作,我们一直在使用 SharePoint 作为文档库。昨天我的老板把我叫到他的办公室,问我: “我听说 SharePoint 是一个 ECM!那么它能为我们做什么?”。 “您希望我们
下面是做网站时候,容易遇到的问题,大家可以看看。特别是新手建站的朋友们,在利用帝国cms做网站时候,这些问题经常发生。 安装常见问题 1、为什么提示"Fatal error:
实现用于搜索 alfresco 存储库的自定义 UI 的选项有哪些?我只发现 Web 脚本共享的自定义,这更像是 WCM 的事情。是否可以针对导入的 CMIS 数据中的自定义模型搜索实现和扩展它?是否
我是 Documentum 的新手,目前正在从事迁移项目。遗留数据库将迁移到 Documentum 平台。关于如何在遗留数据库和 Documentum 数据库之间执行数据库测试的任何想法? 如果有人有
除了RedBooks的教程外,网上还有什么自定义Filenet Content Navigator的技术教程吗? 我们将不胜感激。 最佳答案 这里有红皮书,如果您错过了它,您可以在此处从书中获取插件和
我有一个理论问题。我有大量各种格式的文档(ODS、MS office、pdf、html),我想实现 ECM 系统,它不是文档管理系统,而是保留元数据和文档数据(多种语言)的系统以统一的方式 (xhtm
我正在处理记录链接问题并应用无监督算法,因为我没有外部标签。 我应用了 ECM 算法。使用的代码是: import recordlinkage indexer = recordlinkage.Bloc
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 7年前关闭。 Improve t
我创建了 ECM NewsLetter,其中包含一些网站链接(另一个项目)。在在线版本的 NewsLetter 链接中工作正常,但是当我将此 NewsLetter 发送到我的电子邮件并尝试单击我的邮件
我有一个带有 ECM 1.3 的 6.5 版多站点系统。使用 SSL/TLS 通过端口 587 发送电子邮件,所有连接都在运行和测试,我能够发送测试邮件。 在我的 ECM 中创建一个新的时事通讯然后转
我正在研究 ECM(使用 gcc 编译器生成十六进制文件并将其刷新到 Controller 上) 有一个代码x=(a+b)/2,无论a和b的值是什么,但是该值x 中的值始终为零。 我的 x 上存在循环
每当我尝试在 Email Campaign Manager 中进行测试连接时,我都会收到以下错误。 The underlying connection was closed: Could not es
我正在从事一个项目,我有一个 LPC1768 MBED 设备。我可以通过 USB 将此设备连接到计算机。该设备本身有一个有效的传出以太网连接,我可以使用 MBED 库读取它。 在嵌入式设备上,互联网流
我是一名优秀的程序员,十分优秀!