gpt4 book ai didi

java - 如何在 Tika 中正确配置 AutoDetectParser?

转载 作者:行者123 更新时间:2023-11-30 03:22:30 25 4
gpt4 key购买 nike

我正在使用 Tika 从不同类型的文件中提取文本。所以我使用“AutoDetectParser”解析器,但它的寄存器看起来是空的。我有以下代码,它返回一个空列表(第三行和第四行)。

 Parser parser = new AutoDetectParser();
ParseContext con = new ParseContext();
System.out.println(parser.getSupportedTypes(con)));
System.out.println(" parsers "+parser.getParsers());

我应该如何正确配置 AutoDetectParser 以便它可以调用正确的解析器?

最佳答案

将评论提升为答案 - 通常不需要!只要您在运行时拥有 Tika Core 和 Tika Parsers jar 以及它们所需的依赖项,那么默认的 TikaConfig object将为您自动检测并自动加载它们

如果由于某种原因您在运行时错过了一些 jar,或者您一直在重新打包 Tika 并丢失了一些服务文件,那么您需要按照 Apache Tika troubleshooting wiki 上的说明进行操作。 ,尤其是 Identifying what Parsers your Tika install supports 周围和 Identifying if any Parsers failed to be loaded

(如果你想做非标准的事情,比如排除某些解析器,或者强制某些解析器,或者让解析器处理非标准的 mime 类型,那么你需要一个自定义的 Tika 配置。通常你会用tika-config.xml 文件,请参阅 here on the Tika wiki 了解您可以执行的操作)

关于java - 如何在 Tika 中正确配置 AutoDetectParser?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31015512/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com