gpt4 book ai didi

java - 如何使用 apache tika 从文件中获取特定的元数据标签

转载 作者:太空宇宙 更新时间:2023-11-04 04:14:37 25 4
gpt4 key购买 nike

我的文件夹中有一些文件(sample.pdf、sample.html 等),我正在使用以下 Apache tika 命令来提取元数据。

java -jar tika-app.jar -m -j /sample/sample.pdf > test.txt

执行此命令后,我能够获取 example.pdf 文件的所有元数据标签,但我的要求是获取特定标签,如作者、标题等。请建议我如何使用 Apache tika 获取特定元数据标签。

谢谢

最佳答案

您可以按如下方式提取元数据名称(我的示例是解析 XML 文件,您可以简单地将其更改为 PDF 解析器或使用自动检测解析器:

//detecting the file type
BodyContentHandler handler = new BodyContentHandler(-1);
Metadata metadata = new Metadata();
File inFile = new File("example.xml");
FileInputStream inputstream = new FileInputStream(inFile);
ParseContext pcontext = new ParseContext();

//Xml parser
XMLParser xmlparser = new XMLParser();
xmlparser.parse(inputstream, handler, metadata, pcontext);

System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();//Now we have all the metadata tags here

for(String name : metadataNames) {
if (name == "Your Particular Tag"){ //here you can check if the tag names are the particular ones you need and do what you want with them
System.out.println(name + ": " + metadata.get(name));
}
}

关于java - 如何使用 apache tika 从文件中获取特定的元数据标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17269848/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com