gpt4 book ai didi

solr - 使用 Solr 配置 Tika

转载 作者:行者123 更新时间:2023-12-04 04:49:33 25 4
gpt4 key购买 nike

我希望将 Rich 类型的文档(Pdf、Doc、rtf、txt)索引到 Solr 中。我找到了 Tika 作为解决方案。我在网上咆哮,但没有找到任何文档/链接使其与 ExtractingRequestHandler 一起使用。

任何人都可以请提供使用 ExtractingRequestHandler 配置 Tika 的分步方法。

提前致谢:)

最佳答案

查询 ExtractingRequestHandler Solr 与 Tika 的集成。
Solr 提供 tika.config 内置,除非覆盖配置,否则您不需要定义它。
您可以使用 solrconfig.xml 中定义的默认配置

<!-- Solr Cell Update Request Handler

http://wiki.apache.org/solr/ExtractingRequestHandler

-->
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="lowernames">true</str>
<str name="uprefix">ignored_</str>

<!-- capture link hrefs but ignore div attributes -->
<str name="captureAttr">true</str>
<str name="fmap.a">links</str>
<str name="fmap.div">ignored_</str>
</lst>
</requestHandler>

您可以使用这些命令将文件索引到带有附加元数据的 solr。
curl "http://localhost:8983/solr/update/extract?literal.id=2&literal.title=Test&commit=true&fmap.content=text" -F "myfile=@1.pdf"

默认情况下,文件的内容被复制到内容字段并复制到文本,您可以覆盖设置。

关于solr - 使用 Solr 配置 Tika,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17622544/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com