gpt4 book ai didi

apache-tika - Apache Tika 服务器 - 请求 header 参数?

转载 作者:行者123 更新时间:2023-12-04 09:51:10 41 4
gpt4 key购买 nike

Apache Tika 服务器提供了一个 Rest API 来从文档中提取文本。也可以设置特定的请求 header 参数,例如 X-Tika-PDFOcrStrategy。例如:

$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"

从很多关于 tika 的不同文档中,我发现这些记录了额外的头参数:

X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only | ocr_and_text_extraction
X-Tika-OCRoutputType: hocr

但是似乎没有文档说明如何使用 X-Tika-......? header 参数或支持哪些参数,哪些不支持。

例如,我想知道是否可以用类似的东西覆盖 ImageType 模式或 DPI:

X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100

我的问题是:支持哪些 header 参数以及这些参数遵循哪些命名约定?

最佳答案

处理X-Tika-OCRX-Tika-PDF header 的代码是TikaResource.processHeaderConfig .

然后将这些 header 后缀和值映射到 TesseractOCRConfigPDFParserConfig通过反射配置对象。

因此,要查看您可以设置哪些 X-Tika header ,请查看您想要调整的配置类的选项(TesseractPDF),然后构建名称,然后设置标题。如果您不确定该选项的作用或它采用的值,请查看 JavaDocs 以了解将被调用的底层 setter 方法。

例如setExtractInlineImages在 PDF 上,映射到 X-Tika-PDFextractInlineImages

关于apache-tika - Apache Tika 服务器 - 请求 header 参数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62011038/

41 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com