gpt4 book ai didi

java - 将元数据存储到 Jackrabbit 存储库中

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:27:30 31 4
gpt4 key购买 nike

任何人都可以向我解释一下,在以下情况下如何进行吗?

  1. 接收文档(MS 文档、ODS、PDF)

  2. 通过 Apache Tika 提取双重核心元数据 + 通过 jackrabbit-content-extractors 提取内容

  3. 使用 Jackrabbit 将文档(内容)与其元数据一起存储到存储库中 ?

  4. 检索文档 + 元数据

我对第 3 点和第 4 点感兴趣......

详情:该应用程序以交互方式处理文档(一些分析 - 语言检测,字数统计等+收集尽可能多的细节 - Dublin core + 解析内容/事件处理)以便将处理结果返回给用户,然后返回提取的内容和元数据(提取和自定义用户元数据)存储到 JCR 存储库中

感谢任何帮助,谢谢

最佳答案

上传文件对于 JCR 2.0 和 JCR 1.0 基本相同。但是,JCR 2.0 添加了一些有用的附加内置属性定义。

“nt:file”节点类型旨在表示一个文件,并且在 JCR 2.0 中有两个内置属性定义(这两个都是在创建节点时由存储库自动创建的):

  • jcr:创建(日期)
  • jcr:创建者(字符串)

并定义了一个名为“jcr:content”的子项。这个“jcr:content”节点可以是任何节点类型,但一般来说,与内容本身有关的所有信息都存储在这个子节点上。事实上的标准是使用“nt:resource”节点类型,它定义了这些属性:

  • jcr:data (BINARY) 强制
  • jcr:lastModified (DATE) 自动创建
  • jcr:lastModifiedBy (STRING) 自动创建
  • jcr:mimeType (STRING) protected ?
  • jcr:encoding (STRING) protected ?

请注意,“jcr:mimeType”和“jcr:encoding”是在 JCR 2.0 中添加的。

特别是,“jcr:mimeType”属性的目的是完全按照您的要求进行 - 捕获内容的“类型”。但是,“jcr:mimeType”和“jcr:encoding”属性定义可以(由 JCR 实现)定义为 protected (意味着 JCR 实现自动设置它们)——如果是这种情况,您将不允许手动设置这些属性。我相信JackrabbitModeShape不要将这些视为 protected 。

下面是一些代码,展示了如何使用这些内置节点类型将文件上传到 JCR 2.0 存储库:

// Get an input stream for the file ...
File file = ...
InputStream stream = new BufferedInputStream(new FileInputStream(file));

Node folder = session.getNode("/absolute/path/to/folder/node");
Node file = folder.addNode("Article.pdf","nt:file");
Node content = file.addNode("jcr:content","nt:resource");
Binary binary = session.getValueFactory().createBinary(stream);
content.setProperty("jcr:data",binary);

如果 JCR 实现不将“jcr:mimeType”属性视为 protected (即 Jackrabbit 和 ModeShape),您必须手动设置此属性:

content.setProperty("jcr:mimeType","application/pdf");

元数据可以很容易地存储在“nt:file”和“jcr:content”节点上,但开箱即用的“nt:file”和“nt:resource”节点类型不允许额外的属性。因此,在您可以添加其他属性之前,您首先需要添加一个 mixin(或多个 mixin),这些 mixin 具有您要存储的各种属性的属性定义。您甚至可以定义一个允许任何属性的混合。下面是一个 CND 文件,定义了这样一个 mixin:

<custom = 'http://example.com/mydomain'>
[custom:extensible] mixin
- * (undefined) multiple
- * (undefined)

注册此节点类型定义后,您可以在您的节点上使用它:

content.addMixin("custom:extensible");
content.setProperty("anyProp","some value");
content.setProperty("custom:otherProp","some other value");

您还可以定义和使用允许任何 Dublin Core element 的 mixin :

<dc = 'http://purl.org/dc/elements/1.1/'>
[dc:metadata] mixin
- dc:contributor (STRING)
- dc:coverage (STRING)
- dc:creator (STRING)
- dc:date (DATE)
- dc:description (STRING)
- dc:format (STRING)
- dc:identifier (STRING)
- dc:language (STRING)
- dc:publisher (STRING)
- dc:relation (STRING)
- dc:right (STRING)
- dc:source (STRING)
- dc:subject (STRING)
- dc:title (STRING)
- dc:type (STRING)

所有这些属性都是可选的,并且这个 mixin 不允许任何名称或类型的属性。我也没有真正解决这个 'dc:metadata' 混合问题,因为其中一些已经用内置属性表示(例如,“jcr:createBy”、“jcr:lastModifiedBy”、“jcr:created” , "jcr:lastModified", "jcr:mimeType"),其中一些可能与内容更相关,而另一些可能与文件更相关。

您当然可以定义其他更适合您的元数据需求的 mixin,并在需要时使用继承。但是要小心使用 mixin 的继承——因为 JCR 允许一个节点到多个 mixin,所以通常最好将 mixin 设计为严格限定范围和面向方面(例如,“ex:taggable”、“ex:describable”等)然后根据需要简单地将适当的混合应用到节点。

(甚至有可能定义一个 mixin,允许在“nt:file”节点下有更多子节点,并在那里存储一些元数据。)

Mixins 非常棒,可以为您的 JCR 内容提供极大的灵 active 和强大的功能。

哦,当你创建了所有你想要的节点后,一定要保存 session :

session.save();

关于java - 将元数据存储到 Jackrabbit 存储库中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5155764/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com