gpt4 book ai didi

pdf - Solr ExtractingRequestHandler为pdf文档提供空内容

转载 作者:行者123 更新时间:2023-12-04 23:46:29 25 4
gpt4 key购买 nike

我在Solr中使用ExtractingRequestHandler来获取文档内容并将其编入索引。它适用于所有Microsoft文档,但对于PDF,要提取的内容为空。我还尝试了curl的extractOnly = true,它也只返回空的主体。

我在相同的文档上独立使用了TIKA,并且提取内容就很好了。区别在于,当我独立进行操作时,我使用的是Tika随附的BodyContentHander,而不是Solr使用的SolrContentHandler。有人看过吗?

我真的希望让Solr处理它,而不是使用Tika在Solr之外提取内容。

最佳答案

在解决这个问题之前,我只处理了好几个小时,即以非二进制模式打开我的PDF,然后只将其馈给文件中的第一个EOF字符。 Solr仍将从文件中提取元数据(如它出现在PDF的标题中一样),但是将在其响应中返回一个空的body标签。

这可能不适用于原始海报,但确实可以帮助其他人避免浪费生命。

关于pdf - Solr ExtractingRequestHandler为pdf文档提供空内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1982895/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com