gpt4 book ai didi

solr - 导入丰富的文档时,SOLR 是否有最佳实践 schema.xml?

转载 作者:行者123 更新时间:2023-12-03 17:57:47 24 4
gpt4 key购买 nike

我正在与 SOLR 合作开展一个项目,在该项目中我们导入了一堆(约 40k 项)丰富的文档,主要是 MS Word、Powerpoint、Excel 和 PDF。

是否有最佳实践schema.xml和/或 solrconfig.xml使用 ExtractingRequestHandler 时在 SOLR 中使用?

我一直在对默认模式进行调整,以尝试让 facet 在日期修改时间上工作,但即使没有,我认为很可能存在一个很好的示例,说明当 Tika 的默认输出足够时,这些文件应该如何。

如果没有最佳实践之类的东西 schema.xml和/或 solrconfig.xml我也对好的例子感兴趣,最好是来自现有的开源项目,甚至是好的博客文章。

欢迎任何指点!

最佳答案

在 Taming Text (http://www.manning.com/ingersoll/) 书中,您可以引用
提取请求处理程序。这本书是关于使用开源工具(如 solr、tika 或 lucene)处理文本的。

我一直读到第 5 章,直到现在这本书解释了如何通过修改文件 schema.xml 来创建不同类型的字段以及处理查询或索引来扩展 solr 功能。

关于solr - 导入丰富的文档时,SOLR 是否有最佳实践 schema.xml?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8393417/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com