gpt4 book ai didi

pdf - Apache ManifoldCF TIKA

转载 作者:行者123 更新时间:2023-12-03 00:03:02 24 4
gpt4 key购买 nike

我正在尝试使用Apache ManifoldCF上的Apache Tika集成来提取PDF的文本内容,以便在Elasticsearch服务器上的笔记本电脑上提取一些PDF文件。

正确创建Tika Transformer并在工作中对其进行配置后,我看到ES上的结果字段“_content”用文件的二进制编码而不是文本填充。

我也看到了这个:Extract file content with ManifoldCF,但仍然没有提供答案(自2015年以来!)

有谁能够帮助我?

谢谢!

最佳答案

在用于 flex 搜索的输出连接器中,您为内容字段指定的字段名称是什么?

请提供字段名称以及最大文档大小。

关于pdf - Apache ManifoldCF TIKA,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47328107/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com